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数字 图 像 处 理 是 实现 计算 机 视觉 的 关键 技术 。 在 当前 实际 应 用 中 ,计算 机 视觉 系统 对 
实时 性 和 准确 率 的 要 求 越 来 越 高 ,需要 处 理 的 数据 量 越 来 越 多 ,涉及 的 计算 量 也 越 来 越 大 
这 使 得 目前 个 人 计算 机 的 数据 处 理 能 力 不 能 满足 实际 需求 。 但 随 着 图 形 处 理 器 (Graphic 
Processing Unit,GPU) 的 急速 发 展 ,使 用 GPU 进行 加 速 计算 通常 能 获得 处 理 速度 的 大 幅 
提升 ,因此 使 用 GPU 建立 实时 、 准 确 ,高效 的 计算 机 视觉 系统 成 为 必然 趋势 和 研究 热点 。 

然而 ,目前 使 用 GPU 做 图 像 处 理 的 相关 中 文 资料 普遍 存在 不 足 : 

第 一 ,资料 较 少 且 信息 零散 ,不 成 系统 。 通 常 是 这 个 博客 中 讲解 几 个 技术 点 ,那个 论文 
中 介绍 几 种 算法 ,缺少 完整 的 ,条理 清 晰 的 归纳 。 

第 二 ,较为 复杂 的 环境 搭建 让 很 多 初学 者 望而却步 。 

本 书 是 一 种 非常 适合 初次 接触 并 行 图 像 处 理 技术 的 本 科 生 和 研究 生 的 入 门 级 读物 。 书 
中 ,首先 以 OpenCV 和 CUDA 的 基础 知识 为 出 发 点 ,介绍 并 行 处 理 数据 的 工作 原理 ; 然后 
详细 介绍 OpenCV 和 CUDA 的 环境 搭建 过 程 和 其 中 可 能 遇 到 的 问题 及 解决 方案 ,帮助 读者 
顺利 完成 开发 环境 搭建 ; 最 后 通过 丰富 的 算法 和 例 程 ,由 浅 入 深 地 介绍 多 个 并 行 图 像 处 理 
算法 ,为 读者 未 来 更 深入 地 研究 并 行 图 像 处 理 技术 提供 实践 基础 。 

我 由 囊 地 希望 有 志 加 入 数字 图 像 处 理 技术 开发 的 莘 莘 学 子 , 能 凭借 此 书 更 快速 地 打 好 
基础 ,通过 对 GPU 的 并 行 运算 能 力 的 理解 与 应 用 ,开启 图 像 处 理 技术 研发 的 大 门 。 


隆 克 平 
2019 年 3 月 于 北京 科技 大 学 


随 着 大 数据 时 代 的 来 临 , 越 来 越 多 的 图 像 需 要 实时 处 理 。 随 之 而 来 的 使 用 C++ 编程 的 
机 器 视觉 库 OpenCV 以 及 驱动 GPU 的 CUDA 也 变 得 越 来 越 火热 。 

OpenCV 是 机 器 视觉 领域 非常 著名 的 开源 库 , 它 几乎 被 应 用 到 机 器 视觉 的 所 有 领域 ,其 
功能 几乎 涵盖 每 个 研究 方向 。OpenCV 包含 了 底层 的 图 像 处 理 、 中 层 的 图 像 分 析 以 及 高 层 
的 视觉 技术 。 而 且 , 其 算法 紧 跟 视觉 前 沿 ,将 最 新 的 算法 纳入 其 中 。 特 别 是 OpenCV 2 系列 
的 出 现 , 可 以 使 用 C++ 进行 编程 ,并 且 可 以 使 用 GPU 为 图 像 处 理 进行 加 速 。OpenCV 在 图 
像 界 是 相当 重要 的 工具 ,也 是 很 多 图 像 领 域 研究 人 员 极 力 推荐 的 库 。 

CUDA 作为 一 种 并 行 计 算 架 构 , 是 以 GPU 为 数据 并 行 计算 设备 的 软 硬 件 体 系 。 
CUDA 以 C 语言 为 基础 ,可 以 直接 用 C 语言 写 出 在 显示 芯片 上 执行 的 程序 ,而 不 需要 去 学 
习 特 定 的 显示 芯片 的 指令 或 特殊 的 结构 。 因 此 .CUDA 被 广泛 应 用 在 视频 编 解码 金融、 地 
质 勘探 ,科学 计算 等 领域 。 

作为 并 行 图 像 处 理 的 人 门 级 教材 ,本 书 将 并 行 计 算 架 构 CUDA 和 机 器 视觉 库 OpenCV 
结合 ,以 大 量 示例 程序 为 主线 ,详细 介绍 了 如 何 搭建 OpenCV 环境 ,如 何 使 用 Cmake 编译 
CUDA 和 OpenCV ,以 及 环境 搭建 过 程 中 可 能 出 现 的 错误 和 解决 方案 。 编 写本 书 的 初衷 是 
希望 更 多 初步 接触 GPU 和 图 像 处 理 的 读者 可 以 快速 搭建 好 环境 并 快速 了 解 OpenCV 和 
CUDA 的 基础 知识 ,节省 入 门 消耗 的 时 间 。 

由 圳 感谢 我 的 导师 宋 清 洋 对 于 我 学 业 和 生活 上 的 支持 与 鼓励 ,以 及 对 这 本 书 的 付出 。 
感谢 栾 峰 老 师 对 我 学 业 上 的 指点 ,没有 他 的 指点 也 就 不 会 有 这 本 书 的 诞生 。 感 谢 我 的 好 兄 
弟 郑 建 斌 和 学 姐 包 锡 伟 在 我 学 习 图 像 处 理 的 过 程 中 对 我 的 指导 。 

真心 希望 读者 可 以 轻松 地 入 门 并 行 图 像 处 理 技 术 。 由 于 作者 水 平 有 限 , 书 中 难免 有 不 
足 之 处 ,恳请 读者 批评 指正 。 


王 泽 字 
2019 年 3 月 于 东北 大 学 
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并 行 图 像 处 理 概述 


1.1 计算 机 的 构成 


本 节 将 从 计算 机 的 组 成 部 分 来 普及 计算 机 的 硬件 知识 ,将 介绍 计算 机 的 中 央 处 理 咒 、. 主 
板 等 硬件 ,并 详细 介绍 本 书后 面 并 行 处 理 所 基于 的 硬件 一 一 GPU(Graphics Processing Unit 。 


1.1.1 计算 机 硬件 构成 


计算 机 的 硬件 系统 可 以 按照 工作 原理 和 实际 应 用 两 种 方式 进行 分 类 。 

按照 工作 原理 可 以 分 为 五 大 部 分 : 运算 器 ,控制 器 ,存储 器 、 输 入 设备 和 输出 设备 。 运 
算 器 和 控制 器 合 称 中 央 处 理 器 ,也 就 是 CPU (Central Processing Unit) , 它 是 计算 机 工作 的 

核心 。 存 储 器 包括 内 存 和 外 存 ,内存 用 来 存储 运行 中 的 临时 数据 ; 外 存 用 于 存储 应 用 程序 
和 用 户 数据 ,硬盘 光盘 等 都 属于 外 存 。 输 入 设备 用 于 给 计算 机 输入 程序 或 数据 ,如 键盘 、 鼠 
标 、 扫 描 仪 等 。 输 出 设备 是 将 计算 机 处 理 后 的 结果 送 到 外 部 设备 ,如 显示 器 .打印 机 等 。 

从 实际 应 用 分 为 两 方面 : 内 部 设备 和 外 部 设备 。 内 部 设备 分 为 CPU 内存、 主板 、 显 
卡 \ 声 卡 、 网 卡 、 光 驱 `. 电 源 。 外 部 设备 分 为 显示 器 、 键 盘 . 鼠 标 、. 音 箱 、. 耳 机 、 打 印 机 、 扫 描 仪 、 
手写 板 等 与 计算 机 相关 的 设备 。 

中 央 处 理 器 , 即 CPU, 是 一 块 超大 规模 的 集成 电路 .是 一 台 计 算 机 的 运算 核心 (Core) 和 
控制 核心 (Control Unit) , 它 的 主要 功能 是 解释 计算 机 指令 以 及 处 理 计算 机 软件 中 的 数据 ， 
CPU 的 处 理 方式 是 传统 的 串 行 处 理 , 如 图 1-1 所 示 为 CPU 的 外 观 。 

显卡 即 GPU, 又 被 称 作 图 形 处 理 器 、 显 示 核 心 、 视 觉 处 理 
器 显示 芯片 ,是 一 种 专门 在 计算 机 工作站、 游戏 机 和 一 些 移动 
设备 (如 平板 电脑 智能 手机 等 ) 上 进行 图 像 运 算 工 作 的 微 处 理 
器 ,GPU 的 内 部 结构 与 CPU 不 同 , 它 处 理 数 据 的 方式 是 并 行 处 
理 。 在 多 数 情况 下 ,显卡 指 的 是 包含 了 GPU 芯片 和 辅助 芯片 
的 电路 ,风扇 ,接口 等 部 分 的 一 个 完整 的 ,可 以 直接 使 用 的 硬件 
设备 ,而 GPU 指 的 是 做 图 像 处 理 计 算 的 GPU 芯片 。 显 卡 的 外 ”图 1 CPU 外 观 图 
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图 1-2 计算 机 显卡 图 1-3 显卡 内 的 GPU 芯片 


内 存 是 计算 机 运行 程序 的 地 方 。 通 常 使 用 计算 机 运行 的 所 有 程序 都 是 在 内 存 中 执行 
的 ,因此 内 存 容量 的 大 小 对 计算 机 的 运行 速度 影响 也 比较 大 。 计 算 机 使 用 久 了 ,运行 出 现 卡 
顿 现象 ,多 数 原因 是 内 存 容量 不 够 大 。 内 存 所 处 的 硬件 被 称 作 内 存 条 ,内 存 条 的 外 观 如 
图 1-4 和 图 1-5 所 示 。 在 内 存 条 生产 领域 ,较为 知名 的 企业 有 三 星 、 金 士 顿 ` 英 飞 凌 、 现 代 、 
Smart 等 。 近 几 年 ,这 些 内 存 条 生产 商 逐 步 采 用 了 小 型 的 内 存 条 来 代替 传统 的 大 内 存 条 , 俗 
称 小 卡 和 大 卡 。 小 卡 与 大 卡 的 区 别 主要 体现 在 小 卡 宽度 比 大 卡 窄 ,小 卡 也 可 以 搬 在 原本 大 
卡 的 接口 上 ,不 过 两 边 没有 扣子 卡 住 小 卡 。 小 卡 的 优势 是 体积 小 ,给 其 他 硬件 提供 了 更 大 的 
空间 ,不 过 其 劣势 就 是 集成 度 太 高 ,散热 等 性 能 不 如 大 卡 ,同样 内 存 容 量 的 大 卡 和 小 卡 , 从 稳 
定性 角度 来 看 ,大 卡 更 胜 一 筹 。 


图 1-4 笔记 本 电脑 中 的 内 存 条 图 1-5 台式 机 中 的 老式 内 存 条 (大 卡 ) 


硬盘 作为 构成 计算 机 硬件 系统 的 存储 设备 ,具有 非常 重要 的 地 位 。 可 以 说 ,没有 硬盘 ， 
计算 机 就 无 法 正常 工作 。 硬 盘 集 机 、 电 、 磁 于 一 体 ,结构 相当 复杂 ,图 1-6 和 图 1-7 分 别 为 硬 
盘 的 外 部 结构 和 内 部 结构 。 硬 盘 主 要 分 成 固态 硬盘 (Solid State 
Drive, SSD) ,传统 硬盘 (Hard Disk Drive, HDD) 和 混合 硬盘 
(Hybrid Hard Drive. HHD) 三 大 类 。 固 态 硬 盘 是 使 用 固态 电子 
存储 芯片 阵列 制 成 的 硬盘 ,由 控制 单元 和 存储 单元 (Flash 芯片 、 
DRAM 芯片 ) 组 成 。 固 态 硬盘 的 优点 是 : 读 写 速度 快 ; 抗 摔 性 
好 ; 低 功 耗 ; 无 噪声 ; 工作 温度 范围 大 ; 轻便 。 缺 点 是 : 容量 小 ; 
寿命 有 限 ; 售 价 高 。 传 统 硬盘 就 是 常 说 的 机 械 硬 盘 。 机 械 硬盘 


图 1-6 硬盘 的 外 部 结构 
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使 用 了 传统 的 工艺 ,虽然 读 写 速度 和 稳定 性 不 如 SSD, 但 是 因为 造价 成 本 低 , 所 以 仍然 占有 
很 大 的 市 场 。 pene SSD 和 HDD 两 种 硬盘 混合 在 一 起 , 它 既 包含 了 HHD 的 大 容 
量 ,又 有 SSD 的 闪存 模块 ,目前 市 面 上 常用 的 笔记 本 电脑 都 是 使 用 这 种 硬盘 。 

主板 ,又 叫 主机 板 、 系 统 板 或 母 板 。 它 安装 在 机 箱 内 ,是 计算 机 最 基本 的 也 是 最 重要 的 
部 件 之 一 。 主 板 一 般 为 矩形 电路 板 , 上 面 安装 了 组 成 计算 机 的 主要 电路 系统 ,一 般 有 BIOS 
芯片 .TVO 控制 芯片 . 键 和 面板 控制 开关 接口 、 指 示 灯 捅 接 件 、. 扩 充 插 槽 ,主板 及 插 卡 的 直流 
电源 供电 接 捅 件 ,通常 情况 下 还 会 焊接 上 声卡 、 网 卡 等 装置 ,CPU 作为 处 理 数据 的 核心 ,也 
会 焊接 在 主板 上 。 其 外 观 如 图 1-8 所 示 。 


CPU 供电 
Ilu 


SATA 信 号 北桥 ( 空 ) 
PCH RI. 


USBI PHARM NP, eir ci 


图 1-7 固态 硬盘 的 内 部 结构 图 1-8 主板 外 观 


1.1.2 显卡 和 GPU 


1.1. 1 节 已 经 对 计算 机 中 的 显卡 做 了 简单 介绍 ,本 节 将 针对 后 面 并 行 处 理 需 要 用 的 硬 
件 平台 显卡 和 GPU 做 详细 的 介绍 。 

1. 显卡 的 分 类 

显卡 的 全 称 是 显示 接口 卡 , 是 计算 机 最 基本 的 配置 之 一 。 显 卡 作为 计算 机 的 重要 组 成 
部 分 ,承担 输出 显示 图 形 的 任务 。 用 途 是 将 计算 机 系统 所 需要 的 显示 信息 进行 转换 驱动 ,并 
向 显示 器 提供 信号 ,控制 显示 器 的 正确 显示 。 没 有 显卡 ,计算 机 中 的 图 像 就 无 法 处 理 , 更 无 
法 在 显示 器 上 输出 。 

显卡 目前 分 两 种 一 一 集成 显卡 和 独立 显卡 。 

独立 显卡 简称 为 独 显 ,是 一 个 独立 于 主板 之 外 的 硬件 ,独立 显卡 具备 单独 的 显存 ,不 占 

用 系统 内 存 (但 是 独立 显存 不 够 用 时 可 以 共享 内 存 为 显存 ) ,技术 上 优 于 集成 显卡 。 独 显 由 

于 拥有 独立 的 一 套 运 行 环境 ,这 使 得 其 核心 运算 有 很 大 的 发 挥 空间 ,因此 相对 于 集成 显卡 有 
更 好 的 性 能 。 如 图 1-9 所 示 为 独立 显卡 的 配套 硬件 及 E 
其 GPU 芯片 。 

集成 显卡 简称 集 显 ,不 带 有 显存 ,性 能 一 般 都 比 不 
过 同等 级 的 独立 显卡 。 集 成 显卡 分 为 两 种 : 一 种 是 焊 
接 在 主板 的 北桥 中 ; 另外 一 种 是 封装 在 CPU 中 ,与 
CPU 放 在 一 起 工作 ,被 称 为 核心 显卡 ,简称 核 显 。 两 种 
不 同 的 集成 显卡 因为 没有 独立 的 显存 ,所 以 工作 时 的 GPU 
显存 都 是 从 内 存 中 分 享 而 来 , 当 运行 较 大 型 的 程序 或 图 1-9 独立 显卡 GPU 芯片 
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4 小 ----------------------- 


游戏 时 ,会 占用 相当 一 部 分 内 存 。 近 些 年 核 显 的 性 能 得 到 了 巨大 的 飞跃 ,核心 显卡 对 内 存 的 
依赖 越 来 越 严重 ,在 一 定 程度 上 也 会 影响 CPU 的 性 能 。 如 图 1-10 和 图 1-11 所 示 为 计算 机 
中 焊接 在 北桥 中 的 集成 显卡 。 


CPU 供电 


图 1-10 集成 显卡 图 1-11 主板 上 的 集成 显卡 


现在 的 台式 机 和 笔记 本 电脑 中 通常 都 同时 拥有 独立 显卡 和 集成 显卡 ,有 一 些 会 智能 地 
在 显示 简单 图 像 时 自动 使 用 集成 显卡 降低 功 耗 ,在 需要 高 清 画 质 等 时 候 自 动 使 用 独立 显卡 
提高 画面 效果 。 

2. NVIDIA 显卡 

显卡 的 厂商 主要 有 英 伟 达 (NVIDIA) 和 AMD 两 家 公司 ,现在 的 AMD 显卡 是 原本 制作 
GPU 的 ATI 公 司 , 后 被 AMD 公司 收购 合并 成 一 家 ,这 两 家 的 显卡 俗称 为 N 卡 (NVIDIA 
公司 的 显卡 ) 和 A 卡 (AMD 公司 的 显卡 )。 虽 然 苹果 J Intel 等 公司 也 在 开发 显卡 ,但 市 场 份 
额 远 不 如 这 两 家 。 因 为 本 书后 续 用 到 的 CUDA 都 是 使 用 了 NVIDIA 公司 的 独立 显卡 ,所 
以 接 下 来 将 对 目前 市 面 上 常见 的 NVIDIA 公司 的 独立 显卡 进行 介绍 。 

目前 NVIDIA 公司 的 独立 显卡 主要 分 成 三 大 类 : Tesla 系列 .Quadro 系列 和 GeForce 
系列 。Tesla 系列 显卡 是 专用 的 服务 器 级 别 的 显卡 ,常用 于 大 规模 并 行 计算 , 超 长 时 间 的 连 
续 运 行 也 不 会 大 幅 降低 运行 速度 ,非常 适用 于 机 器 学 习 , 但 是 一 般 价 格 很 高 昂 , 代 表 显 卡 有 
Tesla K40 和 Tesla K80, 如 图 1-12 所 示 为 Tesla 显卡 的 外 形 。 有 人 将 Quadro 显卡 也 称 为 
Q F.Q 系列 的 显卡 是 专业 的 图 形 设计 显卡 ,在 制图 方面 被 广泛 使 用 。 其 价格 低 于 Tesla W 
卡 ,长 时 间 持 续 工 作 的 续航 能 力也 低 于 Tesla 显卡 ,如 图 1-13 所 示 为 Quadro 显卡 。 
GeForce 系列 就 是 市 面 上 最 常见 的 游戏 显卡 。GeForce 系列 的 中 文 名 称 是 “ 精 视 ”, 主 要 面 
对 大 众 用 户 ,用 途 主要 为 娱乐 ,支持 市 面 上 绝 大 多 数 的 3D 游戏 ,也 是 NVIDIA 公司 销售 量 
最 高 的 类 型 ,到 现在 为 止 的 最 新 版 为 GTX 1080Ti。 相 对 于 专业 显卡 ,GeForce 系列 相对 便 
宜 , 而 且 支持 CUDA .cuDNN, 所 以 现在 做 深度 学 习 一 般 也 会 使 用 GTX 1080Ti。 市 面 上 常 
见 的 GeForce 系列 显卡 基本 都 是 GTX 系列 。 如 前 面 提 到 的 GTX 1080Ti 和 GTX 1080。 
其 中 GTX 是 定位 性 能 级 ,从 前 有 GT 和 GTX 两 大 类 ,GT 的 全 称 为 Graphics Processor 
protoType, 定 位 为 次 高 端 显卡 ; GTX 全 称 为 Graphics Processor prototype eXtreme, 定 位 
为 高 端 显卡 。 随 着 显卡 技术 的 进步 .GT 系列 已 经 渐渐 为 低 端 显 卡 ,而 现在 市 面 上 常见 的 
GeForce 系列 显卡 也 都 是 GTX 开头 的 显卡 。GTX 显卡 后 的 编号 ,以 GTX 1080Ti 为 例 ,前 
两 位 代表 第 10 代 显 卡 , 后 两 位 代表 性 能 ,其 实 本 质 上 是 不 同 的 架构 和 工艺 ,有 没有 Ti 代表 
是 否 为 增强 版 。 从 性 能 角度 ,GTX 1080Ti F GTX 1080. GTX 1080 优 于 GTX 1070, 
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GTX 1080 (Ë T GTX 980。 


V 


图 1-12 Tesla 显卡 图 1-13 Quadro 显卡 


以 上 介绍 的 都 是 台式 机 的 独立 显卡 和 集成 显卡 ,笔记 本 电脑 因为 没有 较 大 的 空间 ,所 以 
其 独立 显卡 也 制作 得 非常 小 巧 ,并 且 焊 接 在 主板 上 ,如 图 1-14 所 示 为 笔记 本 电脑 中 的 独立 
显卡 。 笔 记 本 电脑 中 的 独立 显卡 没有 台式 机 中 独立 显卡 那么 好 的 风扇 .辅助 电路 等 ,所 以 性 
能 远 不 如 同名 称 台式 机 的 独立 显卡 ,但 是 这 种 独立 显卡 也 比 普通 的 集成 显卡 性 能 要 好 ,而 且 
这 种 独立 显卡 也 支持 CUDA 并 行 计算 。 

3. 性 能 参数 介绍 

显卡 的 显存 也 称 为 帧 缓存 , 它 的 作用 是 存储 显卡 芯片 处 理 过 或 者 即将 提取 的 演 染 数据 ， 
同 计算 机 的 内 存 一 样 ,显存 是 显卡 用 来 存储 要 处 理 的 图 形 信息 的 部 件 ,如 图 1-15 所 示 。 


CPU —— HFF 


GPU 5 一 一 显存 


图 1-14 笔记 本 上 的 独立 显卡 图 1-15 GPU 与 显存 的 关系 


显存 位 宽 是 显存 在 一 个 时 钟 周期 内 所 能 传送 数据 的 位 数 , 位 数 越 大 则 瞬间 所 能 传输 的 
数据 量 越 大 ,是 显存 的 好 坏 的 重要 参数 之 一 。 显 存 带 宽 二 显存 频率 X 显存 位 宽 二 8, 那么 在 
显存 频率 相当 的 情况 下 ,显存 位 宽 决定 显存 带宽 的 大 小 。 同 样 ,显存 频率 为 500MHz 的 128 
位 和 256 位 显存 ,那么 它 俩 的 显存 带宽 将 分 别 为 : 128 位 显存 带宽 一 500MHzX 128 二 8 二 
8GB/s, 而 256 位 显存 带宽 一 500MHzX256 二 8 一 16GB/s, 是 128 位 的 2 倍 ,可 见 显存 位 宽 
在 显存 数据 中 的 重要 性 。 

核心 频率 指 的 是 显卡 显示 核心 的 工作 频率 , 它 在 一 定 程度 上 反映 出 了 显示 核心 的 性 能 。 
可 以 将 其 类 比 为 CPU 的 主 频 , 数 值 越 高 ,性 能 越 好 。 

显存 频率 是 指 默认 情况 下 ,该 显存 在 显卡 上 工作 时 的 频率 ,以 兆赫 效 (MHz) 为 单位 。 
显存 频率 一 定 程度 上 反映 着 该 显存 的 速度 。 在 一 定 程 度 上 可 以 类 比 为 计算 机 的 内 存 频率 。 

4. GPU-Z 查看 显卡 参数 

显卡 的 性 能 参数 一 般 在 购买 显卡 附 赠 的 说 明 书 上 会 有 详细 说 明 ,或 者 网 上 也 有 同型 号 
显卡 的 性 能 参数 。 如 果 在 不 确定 自己 显卡 的 型 号 ,或 者 想 给 显卡 做 一 个 详细 的 测试 , 则 需要 
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较 专业 的 测试 软件 一 一 GPU-Z, 其 Logo 如 图 1-16 所 示 。 
GPU-Z 是 一 款 非常 出 名 的 处 理 器 识别 工具 ,软件 约 占 
4Mb, 非 常 轻便 D] GPU-Z 可 以 检测 如 下 参数 : 
CD 检测 显卡 的 型 号 ,制作 工艺 、 核 心 面积 .晶体 管 数 量 、 演 
染 器 数量 及 生产 厂商 。 
@ 检测 光栅 和 着 色 器 处 理 单元 数量 及 DirectX 支持 版 本 。 
© 检测 GPU 核心 .着色 器 和 显存 运行 频率 ,显存 类 型 ( 生 图 1-16 GPU-Z 的 Logo 
产 厂商 ) 。 
@ 检测 像素 填充 率 和 材质 填充 率 速度 。 
© 实时 监测 GPU 温度 .GPU 使 用 率 、 显 存 使 用 率 以 及 风扇 转速 等 相关 信息 。 
检查 显卡 的 搬 槽 类 型 和 显卡 所 支持 的 附加 功能 与 显卡 驱动 信息 及 系统 版 本 。 
主要 特性 有 : 
(D xf NIVIDIA, ATI, AMD 和 Intel 的 显卡 或 图 形 设备 。 
© 显示 适配器 型 号 和 GPU 型 号 ,并 且 能 显示 其 具体 信息 。 
@ 显示 显卡 加 速 ,默认 时 钟 频率 以 及 3D 时 钟 频 率 (如 果 设 备 支 持 ) 。 


@ 软件 内 包括 了 一 个 GPU 负载 测试 ,来 监测 显卡 运行 在 PCI-Express lane 上 的 状态 。 


O 结果 信息 经 过 验证 。 

© GPU-Z 可 以 备份 显卡 的 BIOS, 

D 不 需要 安装 ,但 支持 安装 操作 。 

(& 支持 Windows XP/Vista/Windows 7/Windows 8/Windows 10。 


如 图 1-17 所 示 为 GPU-Z 检测 GTX 1070 的 结果 截图 .GPU-Z 的 一 大 优势 是 测量 的 很 


多 参数 都 是 基于 硬件 当时 的 状态 ,所 以 造假 的 GPU 很 难 在 GPU-Z 的 测试 下 鱼目混珠 。 


Ili TechPowerUp GPU-Z 2.8.0 一 X 


Ii TechpowerUp GPU-Z 2.80 一 X 
EF EUH 高 级 uu mo= pp RISER uu =! = 
E NVIDIA GeForce GTX 1080 [ WR | — [GPU 核心 时 种 > [TO85MH: k I! 
GPU | GPIM 修订 | Al « GPU 显存 时 钟 > | 12636MHz h | 
工艺 | Wm  ZSAAh|34me GPU 温度 ` 370'C 
发 布 日 期 | May 17.2016 ”晶体 管 数 | 720« NVIDIA RUNE GG = — 
BIOS 版 本 8604.17 0087 [ Eun mum = um 
子供 应 商 MSI 设备 ID | 10DE 1880 - 1462 3369 
Jem | $70 — 总线 按 口 | PCex16530@xi511 ? SER zip 2e 一 -一 
着 色 器 | 2x “DredX 支 持 站 1202.) GPU 负载 Y 1x 
BEBAR |1094G 像素 /种 — ”纹理 填充 车 | 34G RPA 显存 控制 器 负载 ` 0 came] 
显存 类 型 |  GDDRSX (Micron) 总 线 宽度 | cet 视频 引擎 负载 - 0 
mürkd |  BI2MB areal 2668 BRORS ~ 0x 
驱动 版 本 2321138813 (NVIDIA 388.13) / Wn10 64 mt ~ [| 99% TOP 
驱动 日 期 Oa 27.2017 数字 签名 | 。 WHQL 限制 原因 = ide wa 
GPUB3$0 [1709MHz 显存 时 钟 | 1264 MHz Boost | 1848 MHz ORE = 08500V 
默认 时 钟 「1709 MHz 显存 时 种 [1254 MHz Boost [1848 MHz 
NVIDIA SLI 已 禁用 
计算 能 力 口 OpenCL 回 CUDA 回 Psx 回 DieatCompue 50 — 口 记录 到 文 件 
NVIDIA GeForce GTX 1080 ` NVIDIA GeForce GTX 1080 ` Caa] 


图 1-17 GPU-Z 检测 GTX 1070 显卡 
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1.1.3 显卡 的 发 展 史 


了 解 显卡 的 基础 知识 后 ,本 节 将 介绍 显卡 的 发 展 历史 。 

早期 的 计算 机 因为 没有 图 形 界面 ,所 以 没有 考虑 到 图 像 显示 的 问题 。 随 着 计算 机 的 发 
展 和 图 形 操作 系统 的 不 断 开发 (最 典型 的 是 Microsoft 公司 的 Windows 系列 ) ,图像 界面 已 
经 普及 ,专门 应 对 图 像 显示 的 GPU 也 在 此 期 间 得 到 高 速 的 发 展 。 

最 早 的 个 人 计算 机 的 图 形 处 理 单元 是 IBM 公司 在 1981 年 推出 的 CGA (Color 
Graphics Adapter) 和 在 1984 年 推出 的 EGA CEnhanced Graphics Adapter), EGA 能 同时 
显示 16 色 ,分 辩 率 可 以 达到 640X350 像素 , 帧 缓存 达到 256KB。 

IBM 公司 在 1987 年 又 推出 了 VGA(vidio graphics array), VGA 实现 了 在 单个 芯片 上 
包含 图 形 的 所 有 操作 ,如 硬件 的 平滑 滚动 .屏幕 的 分 割 和 扫描 等 操作 。 由 于 Windows 操作 
系统 的 广泛 使 用 和 快速 发 展 的 趋势 ,各 种 2D 和 3D 的 图 像 处 理 芯片 也 相继 出 现 。 

当时 高 档 的 图 形 工作 站 霸占 了 CAD 工作 站 的 整个 主流 市 场 ,硅谷 公司 (SGI) 在 1992 
年 推出 了 OpenGL ,使 其 成 为 了 第 一 个 2D 和 3D 操作 系统 的 API。1994 年 ,Matrox 公司 为 
了 发 展 个 人 计算 机 的 CAD 市 场 ,推出 了 第 一 个 应 用 于 计算 机 的 3D 图 形 加 速 器 Matrox 
Impression。 

1998 年 ,NVIDIA 公司 推出 了 实时 交互 视频 (Real-time Interactive Video and Animation 
accelerator. RIVA) 和 动画 加 速 器 (Twin Texel, TNT), 

1999 年 ,NVIDIA 公司 发 布 了 GeForce 256, 它 实现 了 在 芯片 上 集成 变换 ,光照 ,建材 、 
纹理 和 染色 引擎 ,同时 能 够 与 OpenGL 1. 2 和 DirectX 7. 0 兼容 ,达到 了 SGI 的 高 端 专业 3D 
工作 站 的 水 平 。2001 4E. NVIDIA 推出 的 GeForce3 优化 了 固定 流水 线 的 工作 模式 ,首次 提 
出 了 顶点 着 色 器 和 像素 着 色 器 的 概念 ,初步 实现 了 部 分 电路 的 用 户 可 编程 性 ,其 可 编辑 性 使 
图 像 效 果 的 实现 不 再 受 显 卡 的 固定 演 染 管线 限制 ,从 而 使 多 个 顶点 和 多 个 像素 点 流入 处 理 
单元 ,分 别 通 过 同一 程序 进行 独立 的 处 理 。 

NVIDIA 公司 的 主要 竞争 对 手 ATICArray Technology Industry inc. % fE B] JÉ ji e t 
术 上 领先 ,在 2006 年 被 AMD 公司 收购 ) 公 司 在 2002 年 推出 了 第 一 个 符合 DirectX 9. 0 规 
范 的 加 速 器 。 在 该 加 速 器 中 ,顶点 着 色 器 和 像素 着 色 器 可 以 方便 .灵活 地 实现 循环 和 长 浮 点 
数 的 运算 。DirectX 9. 0 进一步 加 强 了 像素 着 色 器 和 顶点 着 色 器 的 功能 ,使 原来 的 汇编 级 的 
语言 发 展 成 为 C 语言 风格 的 高 级 语言 HLSL ,进而 产生 了 类 似 于 CPU 的 程序 编译 的 概念 。 
在 同一 时 期 ,OpenGL 也 根据 用 户 的 需要 不 断 地 改进 ,发 展 成 为 OpenGL 1. 5 以 及 后 来 的 
OpenGL 2.0。 并 在 此 过 程 中 形成 了 类 似 C 语言 风格 的 高 级 染色 语言 GLSL. 

2006 年 ,Microsoft 公司 推出 了 DirectX 10 ,其 试图 统一 各 种 染色 器 ,在 理论 上 消除 处 理 
的 瓶颈 。 此 时 ,NVIDIA 公司 推出 了 通用 并 行 架 构 (Compute Unified Device Architecture, 
CUDA) , AMD/ATI ți T CAL/CTM 和 后 来 的 Stream SDK 作为 GPU 编程 模型 的 抽象 
层 。 这 些 GPU 编程 框架 使 用 户 可 以 利用 GPU 强大 的 计算 能 力 进行 通用 计算 ,实现 
GPGPU 计算 。 

2010 年 ,NVIDIA 公司 推出 的 GPU Fermi 架构 集成 了 大 约 30 亿 个 晶体 管 ,其 拥有 512 个 
CUDA 核心 ,存储 器 接口 达到 384 位 宽 , 存 储 器 峰值 带宽 达到 了 230GB/s, 其 主要 应 用 于 实 
时 图 形 处 理 和 大 规模 并 行 计算 领域 。 同 时 ,AMD 采用 40nm 工艺 推出 了 Radeon 系列 ,有 
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20 亿 晶 体 管 , 也 转向 通用 计算 和 移动 图 形 计算 领 域 的 研究 。 此 外 ,NVIDIA 公司 的 CUDA 
编程 框架 和 国际 媒体 处 理 标准 协会 KHRONOS 推出 的 并 行 计算 语言 标准 OpenCL 都 在 很 
大 程度 上 加 速 了 GPGPU 的 发 展 。 

2016 年 ,NVIDIA 公司 推出 了 显卡 GTX 1080 和 CUDA 7.5, 在 2017 年 又 推出 了 GTX1080Ti 
和 CUDA 8.0。 

在 这 段 发 展 史 中 , 需 要 记 住 的 时 间 节 点 是 在 2010 年 ,在 那 一 年 NVIDIA 做 出 了 一 款 很 
实用 的 CUDA ,这 个 CUDA 已 经 可 以 做 一 些 很 全 面 的 开发 。 这 个 时 间 点 也 说 明 , 如 果 想 使 
用 CUDA, 尽 量 使 用 2010 年 以 后 推出 的 NVIDIA 显卡 ,虽然 最 近 AMD 公司 推出 的 新 版 显 
卡 也 可 以 支持 CUDA, 但 因为 架构 不 同 ,兼容 性 还 是 不 如 NVIDIA 自己 的 显卡 。 

图 1-18 所 示 为 显卡 发 展 的 简单 历史 。 


n 1981 年 
- 段 高 速 GPU 诞生 
高 
发 展期 
| ®© AMDA 
NVIDIA moa snaa 
2010 实 现 | 
并 行 处 理 
的 CUDA | GTX 1080. K40. K80% 
CUDA 7.5 


图 1-18 显卡 发 展 历史 的 简略 图 


1.2. 并 行 计算 


并 行 计 算 (Parallel Computing) 或 称 平行 计算 是 相对 于 串 行 计算 来 说 的 。 它 是 一 种 一 
次 可 执行 多 个 指令 的 算法 ,目的 是 提高 计算 的 速度 ,通过 扩大 问题 求解 规模 ,解决 大 型 而 复 
杂 的 计算 问题 。 并 行 计 算 可 分 为 时 间 上 的 并 行 和 空间 上 的 并 行 。 时 间 上 的 并 行 就 是 指 流水 
线 技术 ,而 空间 上 的 并 行 则 是 指 用 多 个 处 理 器 并 发 的 执行 计算 。 

从 广义 上 来 讲 , 并 行 计 算 包 括 时 间 上 的 并 行 处 理 和 空间 上 的 并 行 处 理 , 时 间 上 的 并 行 主 
要 指 在 程序 执行 多 条 指令 时 ,重合 进行 操作 的 一 种 准 并 行 处 理 实现 技术 ,另外 ,多 任务 分 时 
分 复 用 也 算是 一 种 并 行 处 理 技 术 。 空 间 上 的 并 行 则 是 用 多 个 单元 并 发 的 执行 计算 ,这 些 处 
理 单元 可 以 是 多 点 式 分 布 的 CPU 或 者 GPU ,或 者 是 一 个 GPU 内 部 的 许多 处 理 线程 ,还 可 
以 是 其 他 的 异 构 形 式 。 可 见 , 时 间 上 的 并 行 并 不 能 算是 严格 意义 上 的 并 行 计算 技术 ,而 如 何 
更 有 效 地 在 空间 上 并 行 处 理 则 是 现在 主流 的 研究 方向 中 。 

在 并 行 处 理 进入 公众 视野 之 前 ,传统 的 串 行 处 理 是 数据 处 理 的 主流 。 传 统 的 串 行 计 算 
就 如 同 是 沙漏 中 的 沙子 ,堆积 如 山 的 数据 只 能 排队 等 着 被 处 理 器 逐一 处 理 。 所 谓 的 多 任务 
并 行 处 理 , 也 只 是 对 不 同 任务 分 配 不 同 的 时 间 段 来 处 
理 , 这 种 时 分 复 用 的 处 理 方法 ,并 没有 从 本 质 上 提高 整 
体 运 算 的 速度 。 为 了 解决 庞大 数据 量 和 有 限 处 理 能 力 
之 间 的 矛盾 ,研究 者 们 发 明了 多 核 技术 甚至 是 多 处 理 
器 技术 ,目的 也 类 似 于 在 大 量 的 沙 粒 下 面 多 开通 一 些 
通道 ,让 沙 粒 更 快 地 流下 ,如 图 1-19 左 图 所 示 , 这 也 是 图 1-19 并 行 处 理 示 意图 
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早期 的 并 行 计算 的 雏形 。 随 着 硬件 和 软件 技术 的 不 断 进 步 ,时 至 今日 ,如 果 仍 用 沙 粒 来 比喻 
数据 ,那么 并 行 计算 技术 已 经 成 为 一 个 大 大 的 得 网 ,能够 很 快 地 让 这 些 数 据 像 沙 粒 通 过 得 网 
一 般 并 行 处 理 , 如 图 1-19 右 图 所 示 。 每 一 个 得 孔 就 是 一 个 处 理 器 的 一 个 单元 ,将 无 数 个 单 
元 准备 在 同一 个 平面 中 ,每 个 单元 都 是 并 行 的 ,相互 之 间 没 有 任何 影响 ,这 样 就 可 以 对 所 有 
数据 同时 进行 处 理 。 虽 然 每 个 处 理 单元 的 速度 可 能 并 不 是 特别 快 ,但 是 当 处 理 单元 数目 巨 
大 时 ,就 可 以 使 整体 的 计算 时 间 大 大 缩减 , 相 比 之 下 ,传统 的 串 行 处 理 就 远 远 不 及 并 行 处 理 
的 速度 了 5 。 

在 这 个 数据 量 呈 指数 级 暴涨 的 时 代 , 越 来 越 多 的 数据 需要 处 理 , 对 于 一 些 对 计算 时 间 有 
严格 要 求 的 领域 甚至 需要 对 数据 进行 实时 处 理 。 即 便 传统 的 CPU 计算 能 力 异 常 强大 ,但 
是 在 巨大 的 数据 量 面前 仍然 显得 不 堪 一 击 ; 与 此 同时 ,CPU 的 处 理 速度 的 提升 已 经 大 不 如 
前 些 年 ,在 散热 .材料 .架构 等 各 方面 因素 下 ,CPU 的 处 理 速度 已 经 到 达 了 一 个 瓶颈 。 虽 然 
可 以 通过 使 用 多 个 CPU 并 行 处 理 数据 的 方式 来 解决 该 问题 ,但 是 在 资源 受 限 的 情况 下 , 没 
有 办 法 在 同一 台 计 算 机 中 放 多 个 CPU ,同时 多 个 CPU 并 行 也 有 和 较 高 的 技术 难度 。 所 以 ,使 
用 CPU-GPU 异 构 , 即 使 用 CPU 去 控制 GPU 实现 数据 处 理 , 便 可 大 大 提升 计算 速度 和 处 
理 效率 ,这 也 是 未 来 高 性 能 计算 的 发 展 方向 。 


1.3 并行 图 像 处 理 


1.3.1 并 行 图 像 处 理 的 应 用 背景 


并 行 处 理 技术 可 以 应 用 到 很 多 领域 ,其 中 并 行 图 像 处 理 技术 则 是 并 行 处 理 技术 应 用 领 
域 的 一 个 重要 分 支 ,而 这 个 领域 也 是 本 书 讨论 的 重点 所 在 。 

图 像 处 理 耗费 的 时 间 主 要 来 源 于 两 个 方面 : 一 个 是 算法 的 复杂 程度 ,算法 越 复杂 处 理 
的 时 间 越 长 ; 另 一 个 是 需要 处 理 的 数据 量 , 其 中 图 像 的 大 小 .图 像 通道 数 、. 被 处 理 图 像 的 总 
数量 等 都 是 数据 量 的 体现 。 

加 快 图 像 处 理 速度 ,虽然 可 以 通过 优化 图 像 处 理 算 法 来 实现 ,但 是 在 减 小 数据 量 方面 是 
仍然 效果 有 限 ,处 理 的 数据 量 较 大 的 算法 包括 主 成 分 分 析 9 (Principal Component. Analysis. 
PCA) Jh sz X 4r 4) r^ (Independent Component Analysis,ICA) 等 。 有 一 些 图 像 处 理 的 算 
法 本 身 很 难 在 计算 简便 方面 得 到 优化 ,如 非 局 部 均值 (Non-Local Means,NLM) 算 法 中 。 

除了 算法 复杂 度 之 外 ,图 像 本 身 的 像素 数量 也 在 急速 提升 ,需要 处 理 的 图 像 尺 寸 也 越 来 
越 大 。 随 着 近 些 年 电子 技术 的 发 展 ,手机 、Pad 等 产品 都 已 经 可 以 实现 高 清 摄 像 功能 ,图 像 
的 清晰 度 也 越 来 越 高 ,苹果 公司 在 2016 年 3 月 推出 的 iPad Pro Mini(iPad Pro 9. 7 英寸 )， 
摄像 头 是 1200 万 像素 ,经 实测 照片 是 3024 X4032px。 日 常生 活 中 的 图 像 像 素 点 数量 已 经 
开始 巨大 化 ,工业 科技 方面 的 图 像 则 更 是 巨大 。2012 年 ,我 国 第 一 个 高 分 辨 率 测绘 卫星 * 资 
源 三 号 ”的 日 常 接收 、 处 理 和 存储 图 像 信 号 数据 达到 了 1790GB7 。 还 有 近 些 年 异常 火热 的 
人 工 智 能 \ 深 度 学 习 等 领域 ,同样 需要 处 理 大 量 的 图 像 数 据 。 这 样 巨 大 的 数据 量 , 让 传统 
串 行 处 理 陷 人 很 大 的 困境 ,而 打破 这 个 困境 的 有 效 方法 就 是 采用 新 的 处 理 方式 一 一 并 行 
处 理 。 
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1.3.2 并 行 图 像 处 理 的 原理 


并 行 计算 可 以 提高 计算 的 效率 ,虽然 不 是 所 有 的 算法 都 适合 使 用 GPU 通过 并 行 处 理 
的 技术 提高 计算 速度 ,但 是 在 图 像 处 理 领 域 , 绝 大 多 数 的 算法 都 适合 使 用 并 行 处 理 技术 ,可 
以 说 并 行 处 理 技术 在 图 像 处 理 这 一 领域 有 得 天 独 厚 的 优势 。 

如 图 1-20 所 示 ,假设 这 是 一 幅 图 像 的 部 分 像素 点 ,如果 现 在 要 将 该 图 像 进行 处 理 ,将 所 
有 的 像素 点 中 的 数据 提高 1 点 ,那么 传统 的 CPU 进行 处 理 的 方式 会 按照 图 1-21 的 方式 进 
行 图 像 处 理 ,将 像素 点 一 一 列 好 ,然后 一 个 一 个 地 按 顺 序 进行 图 像 处 理 , 如 果 前 边 没 有 处 理 
完成 ,是 不 会 对 后 边 的 像素 点 进行 处 理 的 ,这 就 是 传统 的 串 行 图 像 处 理 。 


图 1-20 计算 机 识别 图 像 图 1-21 传统 的 串 行 处 理 


并 行 处 理 是 通过 计算 机 驱动 GPU 多 线程 并 发 计算 的 工作 方式 ,同时 对 像素 点 进行 计 
算 处 理 。GPU 内 有 很 多 线程 ,每 个 线程 可 以 理解 为 一 个 单独 的 个 体 并 且 可 以 进行 简单 的 计 
算 ,线程 和 线程 之 间 是 相互 独立 的 ,在 一 些 特定 的 情况 下 也 可 以 相互 通信 ,这 样 的 工作 方式 
很 适合 对 图 像 进行 处 理 。 图 像 是 由 一 个 个 像素 点 构成 的 ,当时 用 GPU 进行 图 像 处 理 时 ,可 
以 给 每 一 个 像素 点 分 配 一 个 线程 进行 计算 ,这 个 时 候 GPU 内 的 线程 并 发 地 处 理 图 像 中 像 
素 点 数据 ,通过 这 样 的 并 发 式 计 算 可 以 节省 很 多 处 理 时 间 。 
其 计算 方式 如 图 1-22 所 示 ,在 一 个 图 像 中 ,每 一 个 像素 点 对 
应 地 分 配 了 一 个 线程 ,在 分 配 完 线程 之 后 ,所 有 线程 同时 进行 
计算 。 

对 于 图 像 处 理 , 绝 大 多 数 的 算法 都 是 每 个 像素 点 自身 或 
在 其 他 像素 点 的 影响 下 进行 处 理 ,很 少 会 出 现 一 个 像素 点 
处 理 完成 之 后 ,其 他 像素 点 基于 处 理 后 的 结果 再 次 进行 计 
算 的 情况 ,因此 ,并 行 处 理 技术 很 适合 应 用 在 图 像 处 理 这 一 


图 1-22 GPU 图 像 并 行 计算 
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1.3.3 并行 图 像 处 理 的 加 速效 果 


本 节 主 要 介绍 并 行 图 像 的 处 理 效 果 . 包 括 图 像 处 理 后 的 样子 、 图 像 处 理 时 间 等 等 。 

先 给 出 一 个 期 刊 中 几 位 学 者 在 GPU 图 像 加 速 处 理 领 域 里 边 发 表 的 成 果 。 在 董 芋 、 万 
万 成 、 陈 康 力 三 位 学 者 在 (信息 技术 ) 期 刊 上 发 表 的 数据 显示 GPU 在 图 像 处 理 中 的 图 像 锐 
化 .3X3 图 像 中 值 滤波 算法 中 有 明显 的 加 速 中 。 如 表 1-1 和 表 1-2 所 示 。 


表 1-1 图 像 锐 化 
图 像 分辨 率 /px 256X256 | 512X512 | 768X768 |1024X1024 |1280X1280 | 1536X1536 
CPU/ms 11.0 43.8 100.0 182.9 273.3 392.1 
GPU/ms 26.7 45.3 56.3 108.2 109.4 203.2 
数据 传输 耗 时 /ms 20.4 29.7 28.1 36.3 35.9 43.7 
加 速 比 /ms 0. 41 0.97 1.78 1.69 2.50 1.93 


表 1-2 图 像 中 值 滤波 
图 像 分 辩 率 /px 256X256 | 512X512 | 768X768 | 1024X1024 | 1280X1280 | 1536X 1536 


CPU/ms 198.6 760.8 1679.8 3018.9 4582.8 6734.2 
GPU/ms 31.9 59.2 78.2 145. 7 173.2 284.3 
数据 传输 耗 时 /ms 28.0 26.7 35.0 43.6 48.5 
加 速 比 /ms 6.23 12.85 21.48 20.72 26. 43 23.69 


由 表 中 的 数据 可 知 ,GPU 的 处 理 速度 远 远大 于 CPU 的 处 理 速度 ,但 是 在 图 像 锐 化 算法 
处 理 图 像 分 辩 率 为 256X256px 时 ,GPU 的 速度 会 慢 于 CPU ,相信 很 多 刚刚 接触 GPU 开发 
的 读者 都 会 遇 到 类 似 的 现象 : 使 用 GPU 并 行 处 理 数 据 的 速度 与 单独 使 用 CPU 处 理 的 速度 
差不多 ,甚至 比 单独 CPU 处 理 的 速度 慢 。 

原因 有 以 下 几 种 : 

* CPU 和 GPU 之 间 的 传送 数据 的 时 间 太 长 。 

GPU 的 计算 能 力 是 有 目 共 暑 的 ,但 是 CPU 和 GPU 之 间 传 送 数据 的 耗 时 也 是 非常 可 观 
的 ,如 果 计 算 量 较 小 或 者 是 需要 GPU 和 CPU 之 间 频 繁 地 在 传递 数据 , 则 应 需要 注意 中 间 
的 时 间 成 本 ,这 种 传递 数据 的 耗 时 导致 了 GPU 并 行 处 理 的 总 耗 时 较 长 。 

* 笔记 本 电脑 中 的 GPU。 

使 用 笔记 本 电脑 中 的 GPU 来 进行 并 行 处 理 时 也 容易 出 现 GPU 处 理 的 耗 时 较 长 这 一 
情况 。 台 式 机 的 GPU 有 单独 的 风扇 和 辅助 电路 ,而 笔记 本 电脑 中 的 GPU 确实 能 力 有 限 。 
如 果 笔 记 本 电脑 与 台式 机 使 用 同样 的 CPU ,性 能 不 会 有 巨大 的 差异 ,但 是 笔记 本 电脑 中 的 
显卡 和 台式 机 的 显卡 不 论 从 散热 还 是 计算 能 力 等 方面 都 会 有 巨大 的 差异 。 如 果 是 专业 级 别 
的 服务 器 ,这 个 差别 会 更 大 。 

。 算法 不 适合 并 行 计算 。 

算法 不 适合 使 用 并 行 计算 ,虽然 很 少 ,但 是 确实 有 一 些 算法 不 是 很 适合 用 并 行 计算 处 理 。 
如 果 使 用 并 行 计算 进行 加 速 . 固 定 的 时 间 开 销 也 很 高 昂 ,那么 使 用 并 行 计算 效 果 适 得 其 反 。 

那么 什么 样 的 图 像 处 理 算法 适合 使 用 GPU 来 进行 计算 呢 ? 

。 计算 量 较 大 。 如 果 处 理 的 时 间 只 有 几 秒 钟 ,虽然 可 以 用 并 行 处 理 ,但 是 实际 意义 不 大 。 
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。 图 像 的 数据 量 较 大 。 图 像 像素 点 大 、 图 像 的 数量 多 .总体 数据 量 大 的 算法 更 适合 并 
行 处 理 。 
鉴于 以 上 原因 ,使 用 台式 机 来 实现 NLM 算法 .通过 使 用 CPU 和 GPU 的 处 理 时 间 来 进 
行 对 比 , 具 体 的 实现 过 程 将 在 后 面 详细 介绍 。 表 1-3 和 图 1-23 分 别 是 使 用 CPU 和 GPU 来 
进行 NLM 算法 消耗 的 时 间 。 
表 1-3 CPU 和 GPU 实现 NLM 滤波 算法 的 耗 时 


图 像 分 辩 率 /px 64X64 128X128 256X256 512X 512 1024 X 1024 
CPU/ms 37.6 109.1 312.7 1251.9 4947.6 
GPU/ms 648.2 651.7 654.6 660.1 665.2 

6000 
5000 = 
4000 


1000 加 


, BH B -H NBN BN 


64X64 128X 128 256X256 512X512 1024X 1024 
* CPU GPU 


图 1-23 NLM 滤波 算法 的 处 理 速度 


从 图 1-23 可 以 明显 看 到 , 随 着 图 像 的 像素 点 数量 成 指数 倍增 长 ,CPU 的 处 理 时 间 也 会 
对 应 地 成 指数 倍 递增 。 但 是 对 于 GPU ,虽然 数据 量 暴 增 , 但 是 没有 明显 影响 每 一 次 处 理 消 
耗 的 时 间 。 可 以 说 数据 量 的 增多 仅仅 在 CPU 和 GPU 传递 过 程 中 有 影响 ,但 是 在 图 像 处 理 
的 计算 能 力 上 ,GPU 的 处 理 速度 要 高 于 CPU 的 处 理 速度 。 

在 图 像 锐 化 的 算法 中 ,CPU 的 速度 快 于 GPU 的 速度 是 因为 该 算法 过 于 简单 ,CPU 可 
以 很 快 实现 ,GPU 在 计算 之 前 需要 分 配 线程 ,把 数据 从 CPU 传递 给 GPU ,计算 结束 之 后 需 
要 把 数据 从 GPU 中 返还 给 CPU。 虽 然 说 GPU 计算 的 速度 很 快 ,但 是 一 系列 数据 传递 过 程 
还 是 需要 有 一 定 的 时 间 开 销 ,而 且 这 个 时 间 开 销 是 没有 办 法 避免 的 。 而 NLM 算法 适合 并 
行 处 理 , 其 算法 本 身 也 有 一 定 的 复杂 度 。 当 处 理 的 图 像 像 素 点 数量 成 指数 倍增 加 时 ,GPU 
仍然 只 是 有 分 配 线程 方面 时 间 的 开销 ,几乎 不 必 考 虑 实际 计算 过 程 中 所 耗 的 时 间 ,就 是 说 只 
要 在 线程 够 用 的 情况 下 ,数据 量 的 大 小 几乎 不 会 影响 计算 所 需要 的 时 间 。 


1.4 并 行 图 像 处 理 硬 件 平 台 


前 面 已 经 介绍 了 并 行 处 理 中 使 用 的 一 些 平台 软件 ,在 本 节 将 介绍 一 些 硬件 方面 的 基本 
知识 ,并 给 出 几 种 常用 硬件 型 号 和 对 应 软件 型 号 。 


辐 像 处 理 概述 


NVIDIA 公司 在 市 面 上 常见 的 GPU 有 三 个 系列 : Geforce 系列 .Quadro 系列 Tesla £ 
列 ,这 三 种 类 型 目前 均 支 持 CUDA。 近 几 年 NVIDIA 公司 开发 的 GPU 都 可 以 完美 运行 
CUDA, 自 2010 年 之 后 出 厂 的 NVIDIA 的 GPU 都 支持 CUDA ,现在 市 面 的 NVIDIA 公司 
的 GPU 都 是 支持 CUDA 的 ,以 下 是 早期 出 品 但 是 仍然 支持 CUDA 的 GPUD9 , 

GeForce GTX 280 Tesla S1070 Quadro FX 5600 

GeForce GTX 260 Tesla C1060 Quadro FX 4700 X2 

GeForce 9800 GX2 Tesla C870 Quadro FX 4600 

GeForce 9800 GTX+ Tesla D870 Quadro FX 3700 

GeForce 9800 GTX Tesla S870 Quadro FX 1700 

GeForce 9800 GT Quadro FX 570 

GeForce 9600 GSO Quadro FX 370 

GeForce 9600 GT Quadro NVS 290 

GeForce 9500 GT Quadro FX 3600M 

GeForce 8800 Ultra Quadro FX 1600M 

GeForce 8800 GTX Quadro FX 570M 

GeForce 8800 GTS Quadro FX 360M 

GeForce 8800 GT Quadro Plex 1000 Model IV 

GeForce 8800 GS Quadro Plex 1000 Model S4 

GeForce 8600 GTS 

GeForce 8600 GT 

GeForce 8500 GT 

GeForce 8100 GS 

GeForce 8300 mGPU 

GeForce 8200 mGPU 

GeForce 8100 mGPU 

GeForce 9800M GTX Quadro NVS 320M 

GeForce 9800M GTS Quadro NVS 140M 

GeForce 9800M GT Quadro NVS 135M 

GeForce 9700M GTS Quadro NVS 130M 

GeForce 9700M GT 

GeForce 9650M GS 

GeForce 9600M GT 

GeForce 9600M GS 

GeForce 9500M GS 

GeForce 9500M G 

GeForce 9300M GS 

GeForce 9300M G 

GeForce 9200M GS 

GeForce 9100M G 
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GeForce 8800M GTS 
GeForce 8700M GT 
GeForce 8600M GT 
GeForce 8600M GS 
GeForce 8400M GT 
GeForce 8400M GS 
GeForce 8400M G 
GeForce 8200M G 


1.5 并 行 图 像 处 理 软件 平台 


本 书 中 使 用 的 并 行 图 像 处 理 依托 于 GPU 的 并 行 处 理 能 力 , 而 市 面 上 有 很 多 家 公司 生 
产 GPU ,主要 的 开发 平台 有 NVIDIA 公司 推出 的 CUDA 和 AMD 公司 推出 的 OpenCL. 
CUDA 目前 是 GPU 开发 最 优秀 的 平台 ,并 且 目 前 很 多 国内 的 大 公司 ,例如 阿里 巴巴 .腾讯 
等 ,在 使 用 GPU 集群 时 都 是 使 用 NVIDIA 公司 的 CUDA。 因 此 本 书 中 的 GPU 开发 也 是 采 
用 NVIDIA 公司 推出 的 GPU ,开发 的 环境 也 是 该 公司 推出 的 CUDA , 

为 了 实现 图 像 的 并 行 处 理 , 需 要 在 计算 机 中 搭建 一 个 支持 并 行 图 像 处 理 的 环境 。 本 书 
中 搭建 这 些 环境 需要 用 到 如 下 的 五 款 软 件 : Visual Studio, TBB, OpenCV , CUDA 和 Cmake, 本 
节 将 对 这 五 款 软件 进行 简单 的 介绍 以 方便 后 续 的 学 习 。 


1.5.1 开发 平台 一 一 Visual Studio 


Microsoft Visual Studio( 简 称 VS) 是 美国 Microsoft 公司 的 开发 工具 包 系 列 产 品 。VS 
是 一 个 基本 完整 的 开发 工具 集 , 它 包 括 了 整个 软件 生命 周期 中 所 需要 的 大 部 分 工具 ,如 
UML 工具 ,代码 管控 工具 、 集 成 开发 环境 (IDE) 等 。 

所 写 的 目标 代码 适用 于 Microsoft 支持 的 所 有 平台 ,包括 Microsoft Windows, Windows 
Mobile, Windows CE,. NET Framework,. NET Compact Framework 和 Microsoft Silverlight 及 
Windows Phone? , 

目前 最 新 的 版 本 是 VS 2017, 但 是 目前 CUDA 的 最 新 版 本 CUDA 8. 0 并 不 支持 
VS 2017, 而 且 CUDA 7. 5 也 不 支持 VS 2015, 所 以 一 般 在 进行 环境 搭建 时 都 会 选择 VS 
2012 或 者 是 VS 2010 ,两 者 的 架构 分 别 是 . NET Framework 4. 0 和 . NET Framework 4.5。 
当 二 者 在 计算 机 中 共存 时 ,再 使 用 VS 2010 就 容易 出 现 架构 方面 的 问题 ,所 以 建议 使 用 时 
尽量 使 用 一 个 版 本 而 不 要 多 个 版 本 一 起 使 用 。 


1.5.2. 计算 机 视觉 库 一 一 OpenCV 


OpenCV 的 全 称 是 Open Source Computer Vision Library, OpenCV 是 一 个 基于 BSD 
许可 (开源 ) 发 行 的 跨 平台 计算 机 视觉 库 ,可 以 运行 在 Linux、Windows 和 Mac OS 操作 系统 
上 。 它 是 轻 量 级 且 高 效 的 一 一 由 一 系列 C 函数 和 少量 C++ 类 构成 ,同时 提供 了 Python, 
Ruby, MATLAB 等 语言 的 接口 ,实现 了 图 像 处理 和 计算 机 视觉 方面 的 很 多 通用 算法 。 图 像 
处 理 与 计算 机 视觉 是 有 区 别 的 ,图 像 处 理 的 核心 在 于 对 图 像 中 像素 点 的 计算 ,例如 图 像 分 
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割 、 图 像 融合 .图像 去 噪 等 等 。 而 计算 机 视觉 是 用 计算 机 取代 蔡 人 的 视觉 去 实现 图 像 特 征 提 
取 等 ,最 终 使 计算 机 模拟 出 人 类 的 视觉 9 。 

使 用 C++ 语言 去 设计 图 像 处 理 的 算法 时 ,需要 图 像 
的 读 和 人、 像素 点 的 提取 等 等 一 系列 的 工作 ,都 可 以 通过 aatas Ó 
OpenCV 这 一 视觉 库 完成 。 目 前 OpenCV 最 高 的 版 本 是 
OpenCV 3.2, `M OpenCV 进入 到 3. 0 系列 之 后 ,与 之 前 
的 2.0 系列 有 很 大 的 简化 ,并 且 增 加 了 一 些 新 功能 。 本 


88 OpenCV tor Windows 


(€ OpenCV for Linux;Mac 


书 为 了 保证 几 个 软件 的 兼容 性 ,采用 了 2.0 系列 比较 稳 $ OpenCV tor Android 
定 的 版 本 OpenCV 2.4.9, € Opencv tor ios 


OpenCV 的 官网 下 载 地 址 为 http://opencv. org/ 
downloads. html,2. 4. 9 版 本 的 具体 下 载 地 址 如 图 1-24 图 1-24 OpenCV 2.4.9 下 载 地 址 
所 示 。 


1.5.3 ”统一 设备 架构 一 一 CUDA 


统一 计算 设备 架构 (Compute Unified Device Architecture,CUDA) 是 NVIDIA( 英 伟 
达 ) 公 司 在 2007 年 6 月 提出 的 一 种 全 新 的 并 行 计算 架构 ,可 以 将 数据 传人 GPU ,并 通过 
GPU 进行 计算 的 一 款 软件 。 支 持 CUDA 的 硬件 设备 有 NVIDIA 的 GeForce 系列 ION、 
Tesla 等 ,并 且 CUDA 现 已 能 在 Windows, Linux 和 Mac 三 种 系统 上 完美 运行 ,目前 CUDA 
系列 的 最 高 版 本 是 CUDA 8.0, 

CUDA 一 经 推出 便 得 到 了 极 大 的 欢迎 ,并 且 迅 速 在 各 个 领域 中 取得 了 应 用 。 在 消费 级 
市 场 上 ,几乎 每 一 款 重要 的 消费 级 视频 应 用 程序 都 已 经 使 用 CUDA 加 速 或 很 快 将 会 利用 
CUDA 来 加 速 , 其 中 不 乏 Elemental Technologies Z° E], MotionDSP 公司 以 及 LoiLo 公司 
的 产品 。 在 科研 领域 ,CUDA 一 直 受 到 热 捧 。 例 如 ,CUDA 现 已 能 够 对 AMBER 进行 加 速 。 
AMBER 是 一 款 分 子 动力 学 模拟 程序 ,全 世界 在 学 术 界 与 制药 企业 中 有 超过 60 000 名 研究 
人 员 使 用 该 程序 来 加 速 新 药 的 探索 工作 。 在 金融 领域 ,Numerix 以 及 CompatibL 针对 一 款 
全 新 的 对 手 风 险 应 用 程序 发 布 了 CUDA 支持 并 取得 了 18 倍速 度 提 升 。Numerix 为 近 400 
家 金融 机 构 广泛 使 用 。CUDA 的 广泛 应 用 造就 了 GPU 计算 专用 Tesla GPU 的 崛起 。 全 球 
财富 五 百 强 企业 现在 已 经 安装 了 700 多 个 GPU 集群 ,这 些 企 业 涉 及 各 个 领域 ,例如 能 源 领 
域 的 斯 伦 贝 谢 与 雪 佛 龙 以 及 银行 业 的 法 国 巴 黎 银行 5 。 

本 书 在 使 用 CUDA 时 选用 的 是 CUDA 6.5, 不 过 下 载 时 请 一 定 注意 一 下 ,在 CUDA 6.5 及 
以 前 的 版 本 会 有 笔记 本 (notebook) 版 本 和 台式 机 两 种 版 本 ,在 CUDA 7. 0 以 后 则 没有 这 种 
分 类 了 ,所 以 下 载 时 请 一 定 注意 这 些 问题 。 

CUDA 的 下 载 地 址 如 下 : https://developer. nvidia. com/cuda-downloads。 


1.5.4 ”并行 编 程 开发 工具 一 一 TBB 


线程 构建 模块 (Thread Building Blocks. TBB) && Intel 公司 开发 的 并 行 编程 开发 的 工具 。 

Intel 公司 在 2004 年 开始 有 了 TBB 的 概念 ,并 且 在 2005 年 成 立 了 专攻 TBB 的 团队 并 
且 成 功 在 2006 年 的 8 月 发 布 了 TBB 1.0, TBB 作为 Intel 公司 众多 软件 开发 工具 中 的 一 
个 ,实现 了 开源 供 学 习 和 开发 ,其 使 用 的 协议 是 GPLv2 ,本 书 选 用 的 TBB 版 本 是 TBB 4. 392, 
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TBB 的 下 载 地 址 为 www. threadingbuildingblocks. org/download, 


1.5.5 ” 跨 平台 编译 工具 一 一 CMake 


CMake 软件 是 一 个 跨 平 台 的 安装 (编译 ) 工 具 , 可 以 用 简单 的 语句 来 描述 所 有 平台 的 安 
装 (编译 过 程 )。CMake 这 个 名 字 是 Cross Platform Make 的 缩写 。 虽 然 名 字 中 含有 make. 
但 是 CMake 和 UNIX 上 常见 的 make 系统 是 分 开 的 ,而 且 更 为 高 阶 。 它 能 够 输出 各 种 各 样 
的 makefile 或 者 project 文件 ,能 测试 编译 器 所 支持 的 C++ 特性 ,类 似 于 UNIX 下 的 
automake。 只 是 CMake 的 组 态 档 取 名 为 CmakeLists. txt, CMake 并 不 直接 建构 出 最 终 的 
软件 ,而 是 产生 标准 的 建构 档 ( 如 UNIX 的 Makefile 或 Windows Visual C++ 的 projects/ 
workspaces) ,然后 再 依 一 般 的 建构 方式 使 用 。 这 使 得 熟悉 某 个 集成 开发 环境 (IDE) 的 开发 
者 可 以 用 标准 的 方式 建构 其 软件 ,这 种 可 以 使 用 各 平台 的 原生 建构 系统 的 能 力 是 CMake 和 
SCons 等 其 他 类 似 系统 的 区 别 之 处 。 

CMake 可 以 编译 源 代 码 、 制 作 程序 库 .产生 适配器 (wrapper) ,还 可 以 用 任意 的 顺序 建 
构 执行 档 。CMake 支持 in-place 建构 (二 进 档 和 源 代码 在 同一 个 目录 树 中 ) 和 out-of-place 
建构 (二 进 档 在 别 的 目录 里 ), 因 此 可 以 很 容易 地 从 同一 个 源 代码 目录 权 中 建构 出 多 个 二 进 
档 。CMake 也 支持 静态 与 动态 程序 库 的 建构 。 

本 书 在 使 用 CMake 时 ,使 用 了 CMake 的 编译 源 代码 的 功能 ,后 面 构 建 一 个 并 行 的 
OpenCV 库 , 需 要 使 用 CMake, 选 用 的 CMake 型 号 是 CMake 3. 4 版 本 。 

CMake 的 下 载 地 址 为 https://cmake. org/download/ 。 


1.6 常用 软 硬 件 搭配 方案 


CUDA 正 处 于 高 速 的 发 展 阶段 ,很 容易 出 现 低 版 本 硬件 无 法 完美 运行 高 版 本 CUDA 
的 情况 ,也 可 能 会 出 现 高 版 本 硬件 的 性 能 无 法 用 低 版 本 的 CUDA 完全 开发 出 来 的 情况 。 因 
此 ,本 节 给 出 几 个 硬件 软件 对 应 的 搭配 方式 ,是 实验 室 和 自学 者 比较 容易 得 到 的 性 价 比较 高 
的 搭配 , 仅 供 读者 参考 ,当然 如 果 计 算 机 性 能 好 ,还 是 推荐 使 用 最 新 版 本 的 CUDA 等 相关 
软件 。 

(D 硬件 。CPU: Intel i3-4170M、 内 存 : 4GB、GPU: Nvidia GeForce GT 550M, 

系统 。Windows 7 旗舰 版 x64。 

软件 。VS 2010, OpenCV 2. 4. 9, TBB 43, CUDA 5. 5,CMake 3. 4。 

(2) fii fF, CPU: Intel i5-3230M A fF: 4GB,GPU: Nvidia GeForce GT 750M, 

系统 。Windows 7 旗舰 版 x64。 

软件 。VS 2010,OpenCV 2. 4. 9, TBB 43,CUDA 6. 5,CMake 3.4。 

(3) 硬件 。CPU: Intel i7-4710MQ 内 存 : 4GB,GPU: Nvidia GeForce GT 860M, 

系统 。Windows 10 专业 版 x64。 

软件 。VS 2012、OpenCV 2. 4.9、TBB 43,CUDA 7.5.CMake 3.4。 

(4) 硬件 。CPU: Intel i7-3720MQ、 内 存 : 8GB、 显 卡 : GeForceGTX 980 Ti, 

系统 。Windows 7 旗舰 版 x64 。 

软件 。VS 2015,OpenCV 2. 4. 13, TBB 43,CUDA 8. 0,CMake 3.4。 


1.7 本 书 介 绍 


本 书 将 主要 分 成 四 个 方面 来 分 别 对 OpenCV 和 CUDA 进行 介绍 。 

。 第 1 章 主要 为 相关 知识 的 背景 介绍 。 

。 第 2 章 和 第 3 章 将 对 机 器 视觉 库 OpenCV 的 环境 搭建 和 简单 应 用 进行 介绍 ,采用 的 
处 理 方式 是 传统 的 CPU 串 行 处 理 。 

。 第 4 章 是 GPU 的 结构 和 CUDA 环境 搭建 简单 例 程 的 实现 等 。 

。 第 5 章 为 如 何 使 用 CUDA 和 OpenCV 来 实现 图 像 处 理 。 


1.8 本 音 小 结 


本 章 主 要 介绍 了 并 行 图 像 处 理 的 基础 知识 。 其 中 1. 1 节 介绍 了 计算 机 的 硬件 构成 、 计 


算 机 中 的 显卡 功能 和 显卡 的 发 展 历史 ,这 些 硬件 常识 对 后 续 的 学 习 和 开发 有 很 大 的 帮助 。 
1.2 节 主 要 介绍 了 并 行 计算 的 概念 。1. 3 节 从 并 行 图 像 处 理 的 应 用 背景 .并行 图 像 处理 的 原 
理 以 及 并 行 图 像 处 理 的 加 速效 果 三 个 角度 来 介绍 并 行 图 像 处 理 的 相关 知识 。1. 4 节 主 要 介 
绍 了 在 计算 机 上 搭建 并 行 图 像 处 理 的 硬件 要 求 。1. 5 节 主 要 介绍 了 并 行 图 像 处 理 所 需 的 软 
fk: C++ 开发 平台 Visual Studio、 计 算 机 视觉 库 OpenCV ,统一 设备 架构 CUDA 、 并 行 编程 开 
发 工具 TBB 和 编译 工具 Cmake。1.6 节 根 据 前 两 小 节 介 绍 的 软 硬 件 , 帮 助 读者 合理 选择 适 
合 的 软件 版 本 和 硬件 型 号 。 
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本 章 将 主要 介绍 OpenCV 的 发 展 历程 .工作 平台 和 环境 搭建 ,最 后 补充 环境 搭建 过 程 
中 容易 遇 到 的 问题 。 


2.1 OpenCV 的 发 展 历程 


OpenCV 是 一 个 计算 机 视觉 库 , 作 为 开源 代码 ,OpenCV 自 开 发 以 来 一 直 在 计算 机 视觉 
领域 扮演 着 重要 的 角色 。 

OpenCV 最 初 由 Intel 公司 的 一 个 小 组 进行 研发 ,并 于 1999 年 1 月 问世 ,主要 的 目标 是 
人 机 界面 ,能 被 UI 调用 的 实时 计算 机 视觉 库 , 同 时 可 以 为 Intel 公司 处 理 器 在 一 些 特定 的 
方面 做 优化 。 一 年 后 ,OpenCV 的 第 一 个 开源 版 本 OpenCV alpha 3 正式 发 布 ,之 后 的 几 年 ， 
OpenCV 迎 来 了 高 速 的 发 展 , 并 且 开 始 逐 步 兼容 Windows, Linux 和 Mac 三 大 主流 系统 。 
在 经 历 过 一 系列 的 OpenCV beta 版 本 的 发 展 之 后 ,OpenCV 1. 0 版 本 终于 在 2006 年 10 月 
19 日 发 布 ,这 个 版 本 就 是 现在 使 用 的 OpenCV 2 系列 和 3 系列 的 原型 。 最 早期 的 OpenCV 
1.0 系列 并 不 支持 多 种 语言 ,但 是 在 2009 年 10 月 推出 的 OpenCV 2. 0 便 开 始 支持 C++ 语言 
作为 接口 ,并且 可 以 在 iOS 和 Android 平台 下 完美 运行 ,同时 也 实现 了 CUDA 的 GPU 加 
速 , 为 Python 和 Java 也 提供 了 语言 接口 。 随 着 开源 代码 的 一 步 步 优化 ,终于 在 2012 年 形 
成 了 以 稳定 和 高 性 能 而 被 全 世界 公认 的 OpenCV 2.4 系列 。2014 年 8 月 21 日 ,OpenCV 3.0 
alpha 版 本 问世 ; 同年 11 月 11 A OpenCV 3. 0 beta 版 本 问世 ; 在 2015 年 6 月 4 日 ,发 布 了 
OpenCV 3.0 版 本 。OpenCV 3 系列 使 用 了 全 新 的 内 核 加 插件 的 架构 模式 , 既 保证 了 自身 运 
行 的 高 稳定 性 ,又 优化 了 原 有 的 代码 实现 了 高 效率 运行 ,同时 附加 的 库 变 得 更 加 灵活 多 变 "] 。 

目前 OpenCV 应 用 的 主要 领域 有 人 机 互动 物体 识别 图像 分 割 、 人 脸 识 别 、 动 作 识别 、 
运动 跟踪 、 机 器 人 、 运 动 分 析 、 机 器 视觉 .结构 分 析 、 汽 车 安全 驾驶 等 领域 。 


2.2 开发 平台 


初步 了 解 OpenCV 的 发 展 历程 后 , 便 需 要 搭建 OpenCV 所 处 的 开发 平台 ,本 书 中 使 用 
的 是 Microsoft 公司 推出 的 C++ 编译 平台 Visual Studio。 


Visual Studio 2010 
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2.2.1 Visual Studio 简介 


Microsoft Visual Studio( 简 称 VS) 是 美国 Microsoft 公司 开发 工具 包 系 列 产品 。VS 是 
一 个 基本 完整 的 开发 工具 集 , 它 包括 了 整个 软件 生命 周期 中 所 需要 的 大 部 分 工具 ,如 UML 
工具 、 代 码 管控 工具 、 集 成 开发 环境 (IDE) 等 。 所 写 的 目标 代码 适用 于 Microsoft 公司 支持 
的 所 有 平台 ,包括 Microsoft Windows, Windows Mobile, Windows CE,. NET Framework, 
. NET Compact Framework 和 Microsoft Silverlight 及 Windows Phone, 

1997 4E. Microsoft 公司 发 布 了 Visual Studio 97 ,其 中 包含 面向 Windows 开发 使 用 的 
Visual Basic 5. 0, Visual C++5. 0, 面 向 Java 开发 的 Visual J++ 和 面向 数据 库 开 发 的 Visual 
FoxPro, 还 包含 有 创建 DHTML (Dynamic HTML) 所 需要 的 Visual Inter Dev。 其 中 ， 
Visual Basic 和 Visual FoxPro 使 用 单独 的 开发 环境 ,其 他 的 开发 语言 使 用 统一 的 开发 
环境 。 

1998 年 ,Microsoft 公司 发 布 了 Visual Studio 6.0。 所 有 开发 语言 的 开发 环境 版 本 均 升 
至 6.0。 这 也 是 Visual Basic 最 后 一 次 发 布 , 从 下 一 个 版 本 (7.0) 开 始 ,Microsoft Basic 进化 
成 了 一 种 新 的 面向 对 象 的 语言 一 一 Microsoft Basic. NET。 由 于 Microsoft 公司 对 于 Sun 公 
司 Java 语言 扩充 导致 与 Java 虚拟 机 不 兼容 而 被 Sun 告 上 法 庭 ,Microsoft 在 后 续 的 Visual 
Studio 中 不 再 包括 面向 Java 虚拟 机 的 开发 环境 。 

2002 年 , 随 着 . NET 口号 的 提出 与 Windows XP/Office XP 的 发 布 ,Microsoft 公司 发 
fü f Visual Studio. NET( 内 部 版 本 号 为 7.0)。 在 这 个 版 本 的 Visual Studio rH, Microsoft 
剥离 了 Visual FoxPro 作为 一 个 单独 的 开发 环境 以 Visual FoxPro 7. 0 单独 销售 ,同时 取消 
了 Visual Inter Dev。 与 此 同时 ,Microsoft 引入 了 建立 在 . NET 框架 上 (版 本 1.0) 的 托管 代 
码 机 制 以 及 一 门 新 的 语言 CH ( 读 作 C Sharp)。C# 是 一 门 建立 在 C++ 和 Java 基础 上 的 现 
代 语 言 ,是 编写 . NET 框架 的 语言 。 

.NET 的 通用 语言 框架 机 制 (Common Language Runtime,CLR) 的 功能 是 在 同一 个 项 
目 中 支持 不 同 语言 开发 的 组 件 。 所 有 CLR 支持 的 代码 都 会 被 解释 成 为 CLR 可 执行 的 机 器 
代码 然后 运行 。 

. NET 控件 是 以 输入 或 操作 数据 为 对 象 .. NET 控件 是 . NET 平台 下 对 数据 和 方法 的 
封装 ,有 自己 的 属性 和 方法 。 属 性 是 控件 数据 的 简单 访问 。 方 法 则 是 控件 的 一 些 简单 而 
可 见 的 功能 。 过 去 ,开发 人 员 将 C/C++ 与 Microsoft 基础 类 (MFC) 或 应 用 程序 快速 开发 
(RAD) 环境 (如 Microsoft Visual Basic) 一 起 使 用 来 创建 这 样 的 应 用 程序 .. NET 
Framework 将 这 些 现 有 产品 的 特点 合并 到 了 单个 且 一 致 的 开发 环境 中 ,该 环境 大 大 简化 
了 客户 端 应 用 程序 的 开发 。 包 含 在 . NET Framework 中 的 Windows 窗 体 类 和 旨 在 用 于 GUI 
开发 ,可 以 轻松 创建 能 够 适应 多 变 商业 需求 的 命令 窗口 .按钮 .菜单 .工具 栏 和 其 他 屏幕 
元 素 。 

Visual Basic, Visual C++ 都 被 扩展 为 支持 托管 代码 机 制 的 开发 环境 ,上 且 Visual Basic. 
NET 更 是 从 Visual Basic 脱胎 换 骨 ,彻底 支持 面向 对 象 的 编程 机 制 。Visual J++ 也 变 为 
Visual J & 。 后 者 仅 在 语法 上 与 Java 相同 ,但 是 面向 的 不 是 Java 虚拟 机 ,而 是 . NET Framework, 

本 书 中 所 有 开发 的 程序 都 是 使 用 了 Visual Studio 2010 作为 开发 平台 。 关 于 Visual 
Studio, 目 前 有 众多 版 本 , 较 旧 的 有 Visual Studio 2008. 还 有 集大成 之 作 的 Visual Studio 
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2010 和 Visual Studio 2012, 还 有 比较 新 的 Visual Studio 2013, Visual Studio 2015 和 Visual 
Studio 2017。 目 前 业界 使 用 最 多 ,用 起 来 最 顺手 ,并 且 兼 容 很 多 最 新 软件 的 平台 只 有 VS 
2010 fll VS 201272, 

但 这 并 不 是 本 书 选择 VS 2010 的 全 部 原因 ,VS 2008 版 本 及 其 之 前 的 版 本 对 于 
OpenCV 的 兼容 性 较 差 ,虽然 OpenCV 的 向 下 兼容 的 效果 很 好 ,但 是 很 多 功能 无 法 正常 使 
JH. VS 2008 勉强 可 以 算是 合格 ,但 再 旧 的 版 本 就 不 适用 于 OpenCV 了 。 本 书后 续 需 要 使 
用 到 CUDA ,CUDA 对 于 VS 2008 的 兼容 性 也 不 是 很 好 ,所 以 同时 使 用 CUDA 和 OpenC V 
时 ,VS 2008 不 是 很 好 的 选择 。VS 2010 和 VS 2012 相似 度 极 高 ,两 者 都 兼容 OpenCV 和 所 
有 版 本 的 CUDA, 因 此 建议 选择 这 两 款 开 发 软件 之 一 作为 开发 平台 。 如 果 仅 仅 是 对 
OpenCV 进行 开发 ,可 以 考虑 使 用 最 新 版 本 的 VS 开发 工具 ,但 是 如 果 同 时 使 用 CUDA, Œ 
议 不 要 使 用 最 新 的 Visual Studio 2017。 需 要 注意 的 是 ,VS 2013 版 本 不 兼容 Windows 7 系 
统 , 如 图 2-1 所 示 。 虽 然 可 以 通过 下 载 一 个 插件 将 VS 2013 安装 在 Windows 7 系统 下 ,但 
是 不 建议 初学 者 使 用 这 种 方法 。VS 2015 不 支持 CUDA 7. 5, 这 一 点 也 需要 注意 。 


bd) Visual Studio 


Community 2013 


Setup Blocked 


图 2-1 VS 5 Windows 版 本 不 兼容 


2.2.2 安装 Visual Studio 2010 


在 安装 VS 之 前 需要 确定 VS 版 本 ,建议 尽量 按照 从 旧 到 新 的 顺序 安装 。 
如 果 使 用 的 版 本 较 旧 ,外 载 之 后 换 上 新 版 本 ,新 版 本 会 自动 升级 旧版 本 的 架构 ,旧版 
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本 不 会 对 新 版 本 造成 任何 使 用 上 的 影响 。 可 是 在 安装 好 新 版 本 之 后 , 印 载 安 装 的 旧版 本 
VS, 有 可 能 会 有 很 多 不 必要 的 麻烦 出 现 。 如 本 书 中 一 部 分 例子 ,最 开始 使 用 了 VS 2012 
版 本 ,但 最 后 因为 一 些 原 因 不 能 正常 使 用 ,卸载 后 安装 了 VS 2010 版 本 ,但 是 这 个 过 程 中 
同时 出 现 了 . NET 架构 问题 .缺少 MSVCP110D. DLL 问题 等 ,原因 是 : VS 2010 和 VS 
2012 两 者 的 架构 分 别 是 . NET Framework 4. 0 和 . NET Framework 4. 5, 当 计算 机 中 二 者 
共存 时 再 度 使 用 VS 2010 ,容易 出 现 架构 方面 的 问题 。 当 新 版 本 被 印 载 后 ,新 版 本 的 架构 
将 继续 存在 ,这 会 对 旧版 本 的 使 用 造成 较 大 的 麻烦 。 二 者 依附 的 MSVCP 版 本 分 别 是 
MSVCP100D. DLL 和 MSVCPI 10D. DLL, 在 使 用 高 版 本 时 很 容易 造成 低 版 本 的 文件 损坏 
或 者 覆盖 等 情况 。 虽 然 解决 这 些 问题 都 不 是 特别 困难 ,但 是 处 理 起 来 仍然 需要 很 多 
时 间 。 
最 后 建议 初学 者 先 使 用 VS 2010 版 本 ,而 且 本 书 搭建 的 所 有 环境 、 例 子 说 明和 截图 都 
是 使 用 VS 2010 版 本 。VS 2010 的 安装 过 程 较 简 单 ,以 下 简略 介绍 安装 步 又 : 
CD 双击 安装 包 , 进 入 第 一 个 界面 ,如 图 2-2 所 示 , 单 击 上 方 “安装 Microsoft Visual 
Studio 2010” 选 项 。 


O Visual Studio 2010 


Microsoft Visual Studio 2010 


x RE iss Release "m" 
Service Release， 以 确保 Microsoft Visual 
Studio 2010 的 最 佳 功能 。 


图 2-2 VS 2010 安装 第 一 步 


(2) 单 击 之 后 进入 第 二 个 界面 加 载 组 件 , 如 图 2-3 所 示 ,建议 取消 选中 “是 ,向 Microsoft 
Corporation 发 送 有 关 我 的 安装 体验 的 信息 (S)” 复 选 框 , 单 击 * 下 一 步 ?按钮 。 

(3) 在 组 件 加 载 完 成 之 后 单 击 “ 我 已 阅读 并 接受 许可 条 款 (A)" 单 选 按钮 ,进行 安装 即 
可 ,如 图 2-4 所 示 。 

(4) 之 后 就 进入 了 安装 界面 ,这 个 安装 过 程 是 将 所 有 的 VS 配件 和 相关 的 语言 包 等 安 
装 进去 ,如 图 2-5 所 示 ,首次 安装 需要 接近 半 个 小 时 的 时 间 ,请 耐心 等 候 。 

(5) 经 过 等 待 之 后 就 正式 完成 VS 2010 的 安装 ,可 以 进行 下 一 步 的 OpenCV 环境 搭建 
了 ,如 图 2-6 所 示 为 安装 之 后 打开 VS 2010 的 界面 。 
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图 2-3 


O Visual Studio 2010 ms 


a 请 过 出 所 有 应 用 程序 ， 然 后 再 继续 安装 " 


D 安装 程序 检 弄 到 已 安装 了 以 下 所 和 的 组 件 
* Microsoft 应 用 程序 错误 报告 
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这 些许 可 条 救 是 Microsoft Corporation 《或 您 所 在 地 的 Microsoft 
Corporation 关联 公司 ) 与 您 之 间 达 成 的 协 议 。 MIRRA. 这些 
头 款 适用 于 上 述 软件 ， 包 括 您 用 来 接收 该 软件 的 介 所 《如 有 》 。 这 些 条 7 
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图 2-4 


VS 2010 安装 第 三 步 
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图 2-6 VS 2010 安装 成 功 


2.3 搭建 OpenCV 2.4.9 


本 节 将 介绍 如 何 安装 OpenCV ,并 以 VS 2010 和 比较 经 典 的 OpenCV 2. 4. 9 为 例 进行 
环境 搭建 。OpenCV 自从 1.0 版 本 开始 到 现在 ,搭建 的 主体 思路 几乎 没有 什么 变化 ,因此 使 
用 其 他 版 本 的 OpenCV 也 可 以 参考 此 安装 流程 。 
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2.3.1 第 一 步 OpenCyV 的 下 载 和 安装 


成 功 安装 VS 2010 后 即 可 上 网 下 载 需 要 安装 的 OpenCV 2.4.9, OpenCV 建议 去 官网 
下 载 ,下载 地 址 和 其 他 常用 的 网 站 如 下 号: 

OpenCV 下 载 地 址 为 http://opencv. org/downloads. html, 

OpenCV 官方 主页 为 https://opencv. org. 

OpenCV Github 主页 为 https://github. com/opencv/opencv, 

OpenCV 开发 版 Wiki 主页 为 http://code. opencv. org. 

下 载 完成 之 后 ,双击 OpenCV 2. 4. 9 图 标 选 择 一 个 文件 夹 进行 安装 。 图 2-7 为 
OepnCV 2. 4. 9 的 安装 包 , 该 图 标 也 是 OpenCV 的 Logo。 注 意 安装 路 径 上 不 要 有 中 文 ,所 
有 的 文件 夹 名 称 都 不 能 用 中 文 。 如 图 2-8 所 示 ,如 果 安 装 的 路 径 中 有 中 文 , 在 安装 之 后 运行 
过 程 中 会 报错 。 确 认 好 路 径 之 后 单 击 Extract 按钮 进行 安装 。 


图 2-7 OpenCV 2.4.9 安装 包 图 2-8 OpenCV 路 径 中 不 能 有 中 文 


OpenCV 的 安装 过 程 其 实 可 以 理解 成 对 压缩 文件 进行 解压 ,因为 这 个 过 程 没 有 在 系统 
环境 中 自动 添加 路 径 ,安装 之 后 也 必须 当 作 一 个 库 , 重 新 添加 路 径 。 安装 包 大 约 有 300MB， 
安装 之 后 约 3GB, 如 图 2-9 所 示 为 安装 过 程 。 


2-9 OpenCV 的 安装 过 程 


安装 之 后 会 有 一 个 opencv 文件 夹 ,该 文件 夹 内 部 有 build 和 source 两 个 文件 夹 。 
build 文件 夹 中 主要 为 OpenCV 的 lib 和 dll 库 函 数 , 其 内 部 的 x64 和 x86 两 个 文件 夹 
分 别 表示 编写 64 位 程序 和 32 位 程序 需要 的 库 。source 中 存放 的 则 是 OpenCV 的 例 程 和 一 
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些 其 他 的 相关 源 代 码 以 及 一 些 说 明文 档 。 
2.3.2 第 二 步 OpenCV 的 环境 变量 配置 


CD 在 安装 成 功 OpenCV 之 后 , 接 下 来 进入 OpenCV 的 环境 变量 配置 , 右 击 桌面 上 的 
“计算 机 ”图 标 ,通过 “属性 ”命令 进入 其 属性 界面 ,如 图 2-10 所 示 。 


图 2-10 配置 OpenCV 环境 第 一 步 一 一 计算 机 属性 


(2) 进入 属性 界面 之 后 在 左上 部 单 击 如 图 2-11 所 示 的 “高 级 系统 设置 ”选项 ,进入 “ 环 
境 配置 "界面 。 


查看 有 关 计算 机 的 基本 信息 
Windows 版 本 
Windows 7 WU 
版 权 所 有 © 2009 Microsoft Corporation, RRA). 


Service Pack 1 


BI) ERE Windows mema 
Intel(R) Core(TM) i5-3230M CPU @ 2.60GHz 2.60 GHz 
400 GB 
64 (ERR 
539A : 没有 可 用 于 此 显示 器 的 笔 或 能生 给 入 
eeu 
Windows Update 
性 部 信息 和 工具 


计算 机 名 称 、 域 和 工作 组 设置 
计算 机 名 : Zlase-PC 
计算 机 全 名 : Zlase-PC 


图 2-11 配置 OpenCV 环境 第 二 步 一 一 高 级 系统 设置 


(3) 之 后 会 进入 “系统 属性 ”界面 , 单 击 “ 高 级 "标签 ,再 单 击 下 边 的 “环境 变量 ”按钮 , 进 
入 环境 变量 配置 界面 ,如 图 2-12 所 示 。 


CUDA 与 OpenCV 并 行 图 像 处 理 实 战 


26 k-----------------l----- 


(4) 进入 “环境 变量 ”界面 之 后 在 下 边 的 “系统 变量 ”中 寻找 Path 选项 ,如 果 没 有 Path 
选项 , 则 新 建 一 个 Path。 之 后 编辑 该 选项 ,在 内 部 把 OpenCV 的 路 径 加 进去 即 可 ,位 置 如 
图 2-13 所 示 。 


系统 层 性 Lx | 


EORIASSUBDG Sp FOR SR 


性 能 
视觉 效果 ， 处 理 器 计划 ， 内 存 使 用 ， 以 及 虚拟 内 存 


(RIEGO... | 
用 户 配置 文件 
与 您 登录 有 关 的 点 面 设置 
启动 和 地 障 恢复 
系统 启动 、 系 统 失败 和 调试 信息 
Eo...) 


«stall 64 x84 wclO ML ib; D: \Cmaketbin:| 


[mmo 


2-12 配置 OpenCV 环境 第 三 步 一 一 进入 环境 图 2-13 配置 OpenCV 环境 第 四 步 一 一 
变量 配置 界面 添加 变量 值 
示例 的 路 径 为 : 


D:\OpenCV2. 4. 9\opencv\build\x64\vc10\bin; 

D:\OpenCV2. 4. 9\opencv\build\x86\vc10\bin; 

这 里 的 x86 和 x64 不 是 说 32 位 系统 只 添加 x86 或 64 位 系统 只 添加 x64, 而 是 指 要 编 
译 32 位 的 程序 还 是 64 位 的 程序 ,示例 中 计算 机 的 系统 是 Windows 7 64 位 ,所 以 在 使 用 时 
会 选择 将 两 条 路 径 都 添加 进入 。 这 样 在 编程 序 时 就 可 以 在 Win32 和 x64 内 自由 切换 ,不 会 
出 现任 何 问题 。 

在 配置 路 径 的 过 程 中 ,通常 需要 进行 一 些 文件 夹 的 复制 工作 。 如 果 想 直接 复制 路 径 , 通 
常 需要 顺 着 路 径 找 到 对 应 的 文件 夹 :例如 示例 中 需要 找到 OpenCV 内 部 的 x86 下 的 bin X: 
件 夹 。 可 以 先 打开 需要 找到 的 文件 夹 ,如 图 2-14 Bron 


a » 计算 机 v Learn (D) + OpenCV249 + opencv + build + x86 + vclO » bin 


组 织 > 包 会 到 库 中 > 共享” aR MA 


num ze BEBE zm 大 小 
k ra 图 opencv.calib3d249.dll 2014/4/151659 — USER E 768 kB 
mum 图 opencv calib3d249d.dll 2014/4/15 1701 — 应 用 程序 扩展 1,508 KB 
"i sues 图 opencv contrib249.dll 2014/4/15 17:00 SARETA 1124 KB 


图 2-14 路 径 复制 的 小 技巧 1 
找到 文件 夹 后 单 击 方 框 上 的 路 径 ,原本 的 位 置 就 会 变 成 如 图 2-15 所 示 的 样子 。 
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aR- — BARETT 共享” RRO mixes 


te zm saam zm E 
à TA 图 opencv calib3d249 dll 204/415 1659 SAAFAR 768 KB 
mm 图 opencv calib3d249d.dIl 2014/4151701  SRIEPYTR 1,508 KB 
EL d 图 opencv contrib249.dll 


图 2-15 路 径 复 制 的 小 技巧 2 

通过 这 种 方式 寻找 路 径 就 会 轻松 很 多 。 当 然 ,也 可 以 将 复制 来 的 路 径 放 在 这 个 位 置 ,这 
样 能 很 快 地 找到 对 应 的 文件 夹 位 置 。 

FEE, OpenCV 的 添加 路 径 已 经 完成 。 但 是 添加 路 径 时 仍 有 两 点 需要 注意 : 

。 不 要 随意 改动 原本 存在 的 路 径 。 

在 添加 项 目 路 径 之 前 ,不 要 删 掉 原本 就 存在 的 路 径 , 在 最 后 添加 两 条 全 新 的 即 可 。 所 有 
的 路 径 都 必须 用 *;” 隔 开 , 让 路 径 相互 之 间 没 有 影响 。 最 好 养 成 一 种 习惯 ,每 次 一 个 路 径 添 
加 完 之 后 ,不 论 后 边 还 有 没有 其 他 路 径 , 都 要 在 结尾 加 上 一 个 “;”, 并 且 一 定 是 英文 输入 法 中 


的 “;”。 不 然 会 导致 OpenCV 无 法 正常 工作 ,而 且 在 排查 的 过 程 中 很 难 找到 。 
° 选择 正确 的 vc 版 本 。 


前 面 示例 中 的 路 径 为 : 


D:\OpenCV2. 4. 9\opencv\build\x64\vc10\bin; 
D:\OpenCV2. 4. 9\opencv\build\x86\vc10\bin; 


在 x86 和 x64 文件 夹 中 都 会 有 velo. vell 和 vcl2 这 三 个 文件 夹 , 如 图 2-16 所 示 。 


修改 日 期 类 型 


2014/4/15 16:59 i 
2014/4/15 17:06 Sit 
2014/4/15 1226 it% 


2-16 x86 和 x64 内 的 三 个 版 本 文件 夹 


这 三 个 文件 夹 是 OpenCV 对 应 的 VS 版 本 号 ,如 果 使 用 的 是 VS 2010, 那 么 选择 velo 
文件 夹 的 内 容 。 对 应 关系 如 下 : 


vc10 对 应 VS 2010; 
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vcll 对 应 VS 2012; 
vcl2 对 应 VS 2013, 
如 果 对 应 错 了 ,后 边 的 OpenCV 将 无 法 正常 使 用 。 


2.3.3 第 三 步 ”工程 项 目 内 包含 目录 的 配置 


环境 变量 配置 完成 后 , 即 可 在 VS 2010 内 进行 编程 ,本 节 将 详细 讲述 如 何在 VS 2010 
内 对 OpenCV 库 进行 配置 。 

(1) 首先 打开 VS 2010, 新 建立 一 个 项 目 , 如 图 2-17 所 示 。 虽 然 使 用 Win32 或 者 x64 
都 可 以 编写 程序 ,打开 系统 时 默认 为 Win32 平台 ,不 需要 更 改 什么 。 为 对 x64 进行 说 明 ,下 
面 的 例子 将 使 用 x64 去 实现 , 单 击 左上 和 角 的 “文件 ”一 新建" 一 "项目 ” 命 令 。 


AD) “指南 和 资源 aswsm 

RSS BE Vepi]goicrosch coikeh indsd VB 04 °. 

MARUSGEUR ass B CHSORX Mock PEKHHDBECS, SERE Mcoch INE. BC WR wara 
2: 


TB imageDensising 2010. 


ER 
aaa 


图 2-17 建立 OpenCV 项 目 文件 第 一 步 一 一 创建 项 目 


(2) 在 模板 选项 组 中 选择 Visual C++ 模板 ,在 该 模板 中 选择 “常规 ?选项 ,建立 一 个 “ 空 
项 目 ”, 如 图 2-18 所 示 。 下 方 的 名 称 是 这 个 新 建 项 目的 名 称 和 存储 位 置 ,建议 新 建 一 个 文件 
来, 将 练习 过 程 的 文件 都 存在 同一 个 文件 夹 中 ,后 续 学 习 会 更 方便 。 

(3) 建立 好 项 目 后 ,在 “ 源 文件 "上 右 击 ,选择 “添加 ”新 建 项 ”命令 。 如 图 2-19 所 示 ， 
选择 Visual C++ 模板 ,添加 一 个 C++ 文件 ,在 下 方 十 上 一 个 C++ 文件 的 名 字 , 该 名 字 支 持 字 
母 . 数 字 和 下 画 线 ,但 尽量 不 要 出 现 中 文 或 其 他 的 字符 。 

(4) 回 到 主 界面 之 后 , 单 击 “ 解 决 方案 平台 ”菜单 栏 ,如 图 2-20 Bros ,如果 其 中 有 x64 直 
接 选 择 即 可 。 如 果 没 有 这 个 选项 ,需要 单 击 * 配 置 管理 器 ?生成 一 个 x64 平台 。 如 果 有 ,x64 
平台 直接 选中 即 可 跳 过 步骤 (5); 如 果 没有 ,需要 单 击 “配置 管理 器 ”进入 步 又 (5) 。 

(5) 单 击 “ 平 台 ” 选 项 ,选择 “新 建 "选项 ,如 图 2-21 所 示 。 

下 拉 “ 新 建 平 台 ” 选 择 x64 选项 ,如 图 2-22 所 示 , 单 击 “ 确 定 ” 按 钮 即 可 ,然后 回 到 主 界 
面 ,在 Win32 下 拉 列 表 框 中 找到 x64 平台 选项 。 
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图 2-19 建立 OpenCV 项 目 文件 第 三 步 一 一 选择 模板 


图 2-20 建立 OpenCV 项 目 文件 第 四 步 


配置 管理 器 


CUDA 与 OpenCV 并 行 图 像 处 理 实战 


机 本 -A 


项 目 上 下 文选 定 要 生成 或 部 署 的 项 目 配置)(R): 
项 目 EB 
n Debug 


图 2-21 建立 OpenCV 项 目 文件 第 五 步 1 一 一 建立 x64 平台 
(6) 回 到 项 目 文件 中 , 右 击 项 目 , 选 择 “ 属 性 ”命令 ,在 属性 界面 中 进行 配置 ,如 图 2-23 


Bim o 
a <test-1”(1 个 项 目 ) Eo 


宇和 ht) 
| D 
仅 用 于 项 目 必 ) ` 


ca 
4 d 
ea 


esc. Curl+Shift+x 
Sem) 


图 2-22 建立 OpenCV 项 目 文件 第 五 步 2 一 一 图 2-23 ”建立 OpenCV 项 目 文件 第 六 步 
使 用 x64 平台 修改 项 目 属性 
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(7) 进入 属性 页 后 ,在 “配置 属性 ”中 选择 “VC++ 目 录 ” 选 项 ,在 右 侧 的 “包含 目录 ”中 添 
加 OpenCV 的 include 路 径 , 这 要 根据 文件 存储 的 位 置 确定 路 径 , 示 例 的 路 径 有 如 下 三 条 : 
D:\OpenCV2. 4. 9\opencv\build\ include 


D:\OpenCV2. 4. 9\opencv\build\ include\opencv 
D:VOpenCV2. 4. 9\opencv\build\ include\opencv2 


如 图 2-24 和 图 2-25 所 示 。 


TAP: MS — 


z $(VCInstallDir)binx86_amd64;$(VCInstallDir)bin;$(Wind: 
nt 

引用 1 SIVCInstaliDir)atimfe ibYamdé4;S(VCInstallDirJibVamd64 

库 目 录 S(VCInstallDi)fib\amd64:$(VCInstallDir}atimfe\ib\amd64:$(Win 


zaz S(VCInstaliDirjatimfe sre vmfc S (VCInstaliDirjatimfevsre mem: 
排除 目录 S$(VCInstallDir)include:$(VCInstallDir) atlmfc\include; 


包含 目录 
生成 VC+ + 项 目 期 间 ， 刊 雪 包 信 文件 时 使 用 的 路 径 。 与 环境 专 量 INCLUDE 柜 对 应 . 


图 2-24 建立 OpenCV 项 目 文件 第 七 步 1 一 一 添加 包含 目录 


[Sanz 


DAOpencV2A SopencibuildUnclud 
DAOpenCV24.9Yopencibuild include 


图 2-25 建立 OpenCV 项 目 文件 第 七 步 2 一 一 添加 包含 目录 
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2.3.4 第 四 步 ” 库 目录 的 配置 
在 配置 好 “包含 目录 ”的 路 径 后 进入 “ 库 目录 ”路 径 配 置 。“ 库 目录 ”选项 如 图 2-26 所 示 。 


S(VCInstallDir)binux86_amd64;$(VCInstallDir)bin;$(WindowsSdI 
S(VCInstaliDirjinclude;S(VCInstaliDir)atlmfeinclude;S(Windows: 


排除 目录 SanaalpinindudeSvcinsbalpinatmfcvndudeSwindows 


库 目录 
生成 VC+ + 项 目 期 间 ， 搜 二 放 文 件 时 使 用 的 路 径 。 与 环境 变量 LIB ITE. 


图 2-26 ”建立 OpenCV 项 目 文件 第 八 步 1 一 一 添加 库 目 录 


进入 “ 库 目 录 ” 编 辑 界面 后 ,如 图 2-27 所 示 , 将 OpenCV 的 lib 路 径 加 入 进去 ,请 一 定 注 
意 x64 和 x86 的 选择 ,还 有 vcl0 .vecll 和 vcl2 的 选择 。 示 例 的 路 径 为 : 


D:\OpenCV2. 4. 9\opencv\build\x64\vc10\ lib 


图 2-27 建立 OpenCV 项 目 文件 第 八 步 2 一 一 添加 库 目录 
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2.3.5 第 五 步 ” 附 加 依赖 项 的 配置 


完成 “包含 目录 ”和 * 库 目录 ?的 配置 后 将 进行 “附加 依赖 项 ”的 配置 。 单 击 “ 输 入 ?选项 ， 
右 侧 的 第 一 项 即 为 “附加 依赖 项 ”, 如 图 2-28 所 示 。 


图 2-28 建立 OpenCV 项 目 文件 第 九 步 1 一 一 添加 附加 依赖 项 


进入 依赖 项 界面 之 后 要 添加 OpenCV 2. 4. 9 自身 的 依赖 项 ,如 图 2-29 所 示 , 需 要 添加 
的 依赖 项 有 : 


‘opencv_ml249d. lib 

opencv calib3d249d.lib 
opencv contrib249d.lib 
opencv core249d. lib 
opencv features2d249d.lib 
opencv flann249d.lib 
opencv gpu249d. lib 
opencv highgui249d.lib 
opencv imgproc249d.lib 
opencv legacy249d.lib 
opencv objdetect249d. lib 
opencv ts249d.lib 

opencv video249d.lib 
opencv nonfree249d.lib 
opencv ocl249d.lib 
opencv photo249d.lib 
opencv stitching249d. lib 
opencv superres249d.lib 
opencv videostab249d.lib 
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这 里 的 依赖 项 即 为 所 需要 添加 的 OpenCV 附加 依赖 项 ,以 确保 OpenCV 的 各 个 lib x 
件 可 以 正常 使 用 。 


opency imgproc249d.ib. 
opencv legacy249d lib 
opencv_ml249d.lib 
opencv_objdetect249d.lib 
opency ts249d.lib 


kernel32 lib 
user32.lib 
gdi32Jb 
winspoollib 
comdlg32.lib. 


加 从 父 级 或 项 目 默认 设置 继承 四 


图 2-29 建立 OpenCV 项 目 文件 第 九 步 2 一 一 添加 附加 依赖 项 


OpenCV 的 附加 依赖 项 有 其 专门 的 命名 方法 ,通过 了 解 其 命名 方法 可 以 更 好 地 了 解 
OpenCV 依赖 项 ,这 里 以 opencv_ts249d. lib 作为 例子 进行 说 明 吕 。 

opencv_ 是 前 级 , 紧 接 着 后 边 的 ts 是 依赖 项 缩写 ,之 后 的 249 是 版 本 号 ,例如 OpenCV 
2.4.9 的 缩 略 写 就 是 249。 最 后 的 d 说 明 是 在 Debug 界面 下 的 依赖 项 ,如 果 是 在 Release 界 
面 下 的 附加 依赖 项 要 将 d 去 掉 。 现 在 最 新 的 OpenCV 3.2 版 本 , 则 不 必 添 加 这 么 多 的 依赖 
项 ,版 本 越 高 优化 越 好 ,但 是 其 对 于 CUDA 的 兼容 性 还 是 不 如 OpenCV 2. 4.9 版 本 。 

假如 在 搜索 附加 依赖 项 的 过 程 中 没有 搜索 到 对 应 2. 4. 9 版 本 的 ,也 可 以 通过 熟悉 这 个 
命名 的 方法 解决 这 个 问题 ,例如 现在 搜索 的 是 2. 4. 8 版 本 的 一 个 lib 文件 ,名 称 为 : 

opencv_core248d. lib 

opencv features2d248d.lib 


opencv flann248d. lib 
opencv gpu248d. lib 


如 前 所 述 , 可 以 将 结尾 的 几 个 数字 改正 ,即将 程序 改 成 对 应 2. 4. 9 版 本 的 lib 文件 ,如 下 所 示 : 


opencv core249d.lib 
opencv features2d249d.lib 
opencv flann249d.lib 
opencv gpu249d.lib 


2.3.6 第 六 步 “” 清 单项 配置 

添加 完 附加 依赖 项 后 .建议 将 * 嵌 入 清单 ”选项 关闭 ,当然 ,这 一 项 如 果 不 关闭 也 不 会 影 
响 程序 运行 的 结果 ,但 是 在 处 理 过 程 中 会 出 现 很 多 警告 (warning) ,影响 处 理 时 间 ,所 以 还 是 
建议 关闭 “嵌入 清单 ”选项 。 
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图 2-30 建立 OpenCV 项 目 文件 第 十 步 一 一 修改 嵌入 清单 


2.3.7 第 七 步 ”Release 配置 


至 此 ,Debug 配置 全 部 完成 ,在 不 配置 Release 的 情况 下 不 会 影响 Debug 的 正常 调试 。 
不 过 为 了 后 续 的 学 习 , 仍 然 需要 掌握 Release 的 配置 。 如 图 2-31 所 示 ,在 “属性 页 ?左上 角 的 
“配置 "下拉 列 表 框 中 将 Debug 选项 改 成 Release; 


图 2-31 Æ OpenCV 项 目 文件 第 十 一 步 1 


Release 属性 配置 
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这 时 需要 在 Release 界面 内 重新 进行 配置 ,进入 Release 界面 后 重新 走 一 遍 第 三 步 、 第 
四 步 .第 五 步 和 第 六 步 , 但 是 第 五 步 要 稍稍 有 些 变化 。 

第 五 步 中 的 附加 依赖 项 需要 将 lib 文件 由 Debug lib 改 为 Release lib, 即 将 添加 的 依赖 
项 的 d 去 掉 , 如 图 2-32 Bro , 即 变 成 : 


opencv_objdetect249. lib 
opencv_ts249. lib 

opencv video249.1ib 
opencv nonfree249.1ib 
opencv ocl249.1ib 
opencv photo249.1lib 
opencv stitching249.1lib 
opencv superres249.1lib 
opencv videostab249.1lib 
opencv calib3d249.1lib 
opencv contrib249.1ib 
opencv core249.1lib 
opencv features2d249.1ib 
opencv flann249.1ib 
opencv gpu249.1lib 
opencv highgui249.lib 
opencv imgproc249.1ib 


|| opencv. video249.1ib] 


2-32 ”建立 OpenCV 项 目 文件 第 十 一 步 2 


2.3.8 第 八 步 ”加 入 OpenCV 动态 链接 库 


在 完成 上 述 的 配置 后 ,还 需要 将 对 应 的 lib 文件 都 复制 到 相应 的 Windows 文件 夹 中 , 否 
则 很 容易 出 现 如 图 2-33 所 示 的 文件 缺失 型 错误 "丢失 opencv_core249d. dll”。 手 动 依次 添 
加 每 一 个 lib 文件 会 更 加 麻烦 ,所 以 直接 将 所 有 的 相关 lib 文件 全 部 复制 到 对 应 的 Windows 
文件 夹 中 即 可 避免 这 个 问题 。 


Release 内 附加 依赖 项 
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图 2-33 ”建立 OpenCV 项 目 文件 第 十 二 步 1 一 一 dl 文件 缺失 


首先 找到 OpenCV 安装 的 位 置 ,找到 build 文件 夹 ,其 中 会 有 x86 和 x64 两 个 文件 夹 ， 
再 将 x86 文件 夹 打 开 , 找 到 对 应 VS 版 本 的 文件 夹 ,如 示例 中 使 用 的 是 VS 2010, 那 么 就 选 
TÉ vclo 文件 夹 ,之 后 单 击 bin 文件 夹 ,寻找 对 应 的 dl 文件 ,如 图 2-34 所 示 。 


1 本 


图 2-34 建立 OpenCV 项 目 文件 第 十 二 步 2 一 一 dll 文件 复制 


把 这 个 文件 夹 中 所 有 的 内 容 全 选 并 复制 ,粘贴 到 C 盘 中 Windows 下 的 System32 文件 
夹 中 即 可 解决 这 个 问题 。 

示例 中 的 OpenCV x86 的 bin 路 径 为 : 

D:\OpenCV2. 4. 9\opencv\build\x86\vc10\bin 
相对 地 ,将 要 复制 到 的 Windows 文件 夹 路 径 为 ; 

C:\Windows\System32 

在 完成 上 述 的 x86 lib 文件 的 复制 工作 后 , 回 到 OpenCV 的 文件 夹 中 ,找到 和 x86 相对 
的 x64 文件 夹 , 然 后 在 x64 文件 夹 中 找到 velo 文件 夹 ,. 进 入 之 后 将 bin 文件 夹 中 所 有 的 文 
件 进行 复制 ,并 粘贴 到 C 盘 中 Windows 下 的 SysWOW64 文件 夹 中 。 将 VS 软件 关闭 ,重新 
启动 VS 软件 , 即 可 完成 在 Windows 文件 夹 下 的 OpenCV 动态 链接 库 的 配置 。 

示例 中 的 OpenCV x64 的 bin 路 径 为 : 


D:\OpenCV2. 4. 9\opencv\build\x64\vc10\bin 
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相对 地 ,应 该 粘贴 的 地 址 为 : 


C:\Windows\SysWOW64 


2.3.9 第 九 步 ”环境 测试 


完成 上 述 所 有 的 配置 后 ,进入 最 后 的 环境 测试 步骤 。 回 到 最 初 的 VS 界面 ,找到 “ 源 文 
件 ? 下 已 经 配置 好 的 . cpp 文件 ,之 后 在 右 侧 编写 程序 即 可 ,如 图 2-35 Bron 。 


2016 7 17.cpp x 


图 2-35 建立 OpenCV 项 目 文件 第 十 三 步 1 一 一 环境 测试 
给 出 一 段 比较 简单 的 OpenCV 图 像 显示 例子 ,作为 环境 测试 ,程序 实现 如 下 : 


# include < opencv2/opencv. hpp> 
using namespace cv; 


void main() 


{ 


Mat srcImage = imread("Peashooter. jpg"); 
imshow(" 图 像 显 示 ", srcImage) ; 
waitKey(0); 

) 


这 段 程序 是 将 一 个 图 像 进行 读 人 然后 再 显示 出 来 ,如 果 这 有 段 程序 正确 地 显示 出 来 , 则 证 
明 OpenCV 已 经 完全 配置 成 功 并 且 可 以 正常 使 用 。 


实现 结果 如 图 2-36 所 示 。 
使 用 imread 函数 读 和 图像 有 两 种 写法 : 一 种 是 将 图 像 放 入 默认 路 径 中 ,直接 输入 图 像 


的 名 称 进行 读 入 ; 另外 一 种 是 直接 给 出 图 像 存储 的 路 径 ,后面 会 对 imread 函数 进行 较 详细 


的 介绍 。 
第 一 种 方式 就 是 示例 中 在 默认 路 径 下 读 入 图 像 ,如 下 : 


Mat srcImage = imread("Peashooter. jpg"); 
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使 用 这 种 方式 读 人 图 像 要 求 图 像 必须 放 在 默认 路 径 下 ,以 下 提供 一 个 小 技巧 可 以 快速 
到 默认 路 径 , 如 图 2-37 所 示 。 布 击 读 入 图 像 的 . epp 文件 ,如 示例 中 的 2016_7_17. cpp, 之 
单 击 “ 打 开 所 在 的 文件 夹 (O)” 命 令 , 就 可 以 直接 进入 该 文件 默认 的 路 径 了 。 


TE ur. — 
XIHA WE 视图 (V) 项 目 (P) ERB) MAO) MAM) Nsight BRA IAM 体系 结构 (C) RENS) 分 析 (N) SAW 
ual a Eie -| T 

iQ wa s|; | = 2 | SQ S1 2 O > Q; 
解决 广安 资源 管理 器 ET TD, 

Bella 六 16717cpp 加 curls 
ad NUR "test 1" (1 NAB) 关闭 (O 

4 testi 除 此 之 外 全 部 关闭 (A 


图 2-36 建立 OpenCV 项 目 文件 第 十 三 步 2 


环境 测试 结果 
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图 2-37 寻找 文件 对 应 的 默认 路 径 


进入 该 文件 夹 之 后 ,将 所 需要 的 图 片 文件 复制 进去 即 可 ,如 图 2-38 所 示 ,箭头 指向 的 图 
标 即 是 所 需要 的 图 像 。 
第 二 种 方式 就 是 直接 将 文件 存储 的 路 径 写 出 来 ,如 下 : 


Mat srcImage = imread("D:\Peashooter. jpg") ; 
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图 2-38 将 图 像 存 放 到 默认 文件 夹 


这 种 写法 就 是 在 指定 的 路 径 下 寻找 图 片 ,上 述 写 法 就 是 在 D 盘 中 找 Peashooter. jpg X 
件 , 当 然 也 可 以 加 深 文件 夹 ,如 下 : 


Mat srclmage = imread("D:\zlase\pee\Peashooter. jpg"); 


这 种 读 取 的 方式 也 可 以 成 功 实现 图 像 的 读 人 ,但 仍然 要 求 存储 图 像 的 路 径 中 不 能 包含 
带 中文 名 称 的 文件 夹 。 

建议 使 用 imread 读 入 图 像 时 采用 第 一 种 方式 ,第 二 种 方式 有 可 能 因为 文件 夹 过 深 而 没 
办 法 成 功 读 取 图 像 , 并 且 第 二 种 读 入 方式 相 比 第 一 种 更 耗 时 。 


2.4 OpenCV 基本 架构 


在 编程 开发 之 前 ,最 好 先 了 解 一 下 OpenCV 的 基础 架构 ,这 样 更 有 利于 编程 和 开发 。 

在 已 安装 的 OpenCV 文件 夹 中 按 路 径 找 到 include 文件 夹 , 并 找到 其 中 的 opencv 和 
opencv2 文件 夹 。opencv 文件 夹 中 包含 的 是 最 基础 也 是 最 常用 的 OpenCV 1 系列 的 头 文 
件 ,如 图 2-39 所 示 。 


H eh 2013/12/20 17:49 C/C++ Header 4KB 
8] cvhpp 2013/12/20 17:49 C/C++ Header 3 KB 
D cvauxh 2013/12/20 17:49 C/C++ Header 3 KB 
国 cvauxhpp 2013/12/20 17:49 C/C++ Header 3 KB 
i cvwimage-h 2013/12/20 1749 C/C++ Header 3KB 
D cxcore.h 2013/12/20 1749 C/C++ Header 3KB 
[8] excore.hpp. 2013/12/20 17:49 C/C++ Header 3 KB 
[8] cxeigen.hpp 2013/12/20 17:49 C/C++ Header 3 KB 
D exmisc.h 2013/12/20 17:49 C/C++ Header 1KB 
[B] highgui.h 2013/12/20 17:49 C/C++ Header 3 KB 
国 mih 2013/12/20 17:49 C/C++ Header 3 KB 


2-39 OpenCV1 的 头 文件 
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opencv2 文件 夹 中 包含 的 是 OpenCV 2 系列 的 头 文件 ,该 文件 夹 包含 了 整个 OpenCV 2 

系列 的 精华 ,如 图 2-40 所 示 。OpenCV 2 系列 相 比 于 OpenCV 1 系列 丰富 了 很 多 内 容 ,存放 
的 格式 也 更 加 规范 ,相似 功能 的 头 文件 以 一 个 文件 夹 的 形式 存放 在 opencv2 中 。 


Ë calib3d 2014/4/15 1708 — tx 
Ë contrib 2014/4/15 17508 Xit% 
J core 2014/4/15 17:08 RA 
J features2d 2014/4/15 1708 。 文件 去 
di flann 2014/4/15 17:08 — 文件 夫 
J gpu 2014/4/15 17208 Zi 
J highgui 2014/4/15 17:08 。 文件 去 
Ji imgproc 2014/4/15 1708 — 文件 去 
点 legacy 2014/4/15 1708 — Xr 
ds ml 2014/4/15 17:08 文件 去 
点 nonfree 2014/4/15 1708 Zip 
Ji objdetect 2014/4/15 17:08 — 文件 去 
i od 2014/4/15 17208 — 文件 去 
Ë photo 2014/4/15 1708 X 
d stitching 2014/4/15 1708 R 
À superres 2014/4/15 1708 — Si% 
J ts 2014/4/15 1708 i 
J video 2014/4/15 17:08 Xip 
Ji videostab 2014/4/15 1708 — xtX 
国 opencvhpp 2013/12/201749 C/C++ Header 3KB 
国 opencv. modules.hpp. 2014/4/15 17:04 C/C++ Header 1KB 


图 2-40 OpenCV 2 的 头 文件 


这 些 头 文件 的 功能 和 用 处 如 下 : 

(1) calib3d。 

calib3d 的 全 称 是 Calibration( 校 准 ) 十 3D, 该 模块 的 主要 作用 是 利用 摄像 机 进行 图 像 
校准 和 三 维 重 构 , 其 中 包括 的 基本 内 容 有 多 视觉 几何 法 、 单 个 立体 摄像 头 标 定 、 物 体 姿态 估 
计 、 立 体 相似 性 算法 、3D 信息 的 重建 等 。 

(2) contrib 。 

contrib 的 全 称 是 Contributed( 贡 献 )/Experimental( 实 验 ) Stuf, 这 个 模块 是 一 个 最 新 
贡献 但 是 却 仍然 在 测试 中 的 模块 ,对 于 OpenCV 2. 4. 9 来 说 是 测试 不 成 熟 的 模块 ,但 是 对 于 
OpenCV 3 系列 就 相对 成 熟 一 些 。 这 个 库 中 包含 了 人 脸 识别 .立体 匹配 等 技术 。 

(3) core, 

core 是 核心 功能 模块 ,可 以 说 是 OpenCV 使 用 率 最 高 的 模块 。core 模块 包含 了 
OpenCV 基本 的 数据 结构 ,动态 数据 结构 ,绘图 函数 、 数 组 操作 相关 函数 、 辅 助 功能 与 系统 函 
数 ,与 OpenGL 之 间 的 相互 协同 工作 。 

(4) imgproc。 

imgproc 的 全 称 是 Image( 图 像 ) 十 Process( 处 理 ) , 即 为 图 像 处 理 模块 ,主要 包含 了 线性 
和 非 线 性 的 图 像 滤波 函数 图像 的 几何 变换 函数 、 图 像 转换 函数 、 直 方 图 相关 函数 、 结 构 分 析 
函数 ,形状 描述 的 函数 、 运 动 分 析 函 数 、 对 象 跟踪 函数 、 特 征 检 测 函 数 、 目 标 检测 等 函数 。 

(5) features2d。 

features2d 全 称 就 是 Feature 十 2D, 即 2D 功能 框架 ,其 主要 包含 以 下 内 容 : 特征 检测 和 
描述 .特征 检测 器 (Feature Detectors) 通 用 接口 .描述 符 提取 器 (Descriptor Extractors) 通 用 
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2 ----------------------- 


接口 .描述 符 匹配 器 (Descriptor Matchers) 通 用 接口 .通用 描述 符 (Generic Descriptor) PE fid 
器 通用 接口 关键 点 绘制 函数 和 匹配 功能 绘制 函数 。 

(6) flann。 

flann 的 全 称 是 Fast Library for Approximate Nearest Neighbors, 是 高 维 的 近似 近邻 
快速 搜索 算法 库 , 其 主要 内 容 为 快速 近似 最 近邻 搜索 、 聚 类 等 。 

(7) gpu。 

gpu 模块 是 将 OpenCV 与 计算 机 中 GPU 连接 在 一 起 的 接口 ,也 是 OpenCV 使 用 CUDA 加 
速 时 必 不 可 少 的 模块 。 

(8) highgui。 

highgui 模块 是 高 层 GUI 图 形 用 户 界面 模块 ,也 是 做 图 像 处 理 必 不 可 少 的 模块 ,这 个 模 
块 包含 了 图 像 视频 等 的 输入 和 输出 ,视频 捕捉 、 图 像 和 视频 的 编码 解码 、 图 形 交 互 界面 接口 
等 内 容 。 

(9) legacy。 

legacy( 遗 赠 ) 模 块 是 一 些 已 经 废弃 的 代码 库 , 保 留 下 来 用 于 向 下 兼容 ,其 包含 如 下 功 
能 : 运动 分 析 、 期 望 最 大 化 直方 图 .平面 细 分 (C APD ,特征 检测 和 描述 (Feature Detection 
and Description) ,描述 符 提 取 器 (Descriptor Extractors) 的 通用 接口 、 通 用 描述 符 (Generic 
Descriptor Matchers) 的 常用 接口 .匹配 器 等 。 

(10) ml, 

ml 的 全 称 是 Machine Learning( 机 器 学 习 ), 基 本 上 是 统计 模型 和 分 类 算法 ,主要 包含 
以 下 内 容 : 

统计 模型 (Statistical Models) 

一 般 贝 叶 斯 分 类 器 (Normal Bayes Classifier) 

K- 近 邻 (K-Nearest Neighbors) 

支持 向 量 机 (Support Vector) 

决策 树 (Decision Trees) 

提升 (Boosting) 

梯度 提高 树 (Gradient Boosted Trees) 

随机 树 (Random Trees) 

超 随 机 树 (Extremely Randomized Trees) 

期 望 最 大 化 (Expectation Maximization) 

神经 网 络 (Neural Networks) 


MLData 
(11) nonfree, 
nonfree 就 如 同 其 字面 意思 ,为 非 免费 。OpenCV 作为 开源 代码 供 大 家 使 用 ,但 是 OpenCV 


的 开发 过 程 也 牵涉 到 一 些 专利 问题 ,而 此 专利 的 内 容 就 是 后 面 开发 CUDA 加 速 的 GPU 相 
关 的 内 容 。 

(12) objdetect。 

objdetect 全 称 是 Object HR) + Detection( 检 测 ) , 即 为 目标 检测 模块 ,主要 的 用 途 是 
将 图 像 中 的 特征 检测 出 来 ,如 图 2-41 所 示 , 其 主要 包含 了 Cascade Classification( 级 联 分 类 ) 


和 Latent SVM 这 两 个 部 分 。 


即 利 用 OpenCL 加 速 计算 机 视觉 处 理 的 模块 。 


算 语言 ) 是 第 一 个 面向 异 构 系 统 通 用 目的 并 行 编程 的 
开放 式 、 免 费 标准 ,也 是 一 个 统一 的 编程 环境 ,便于 软 
件 开 发 人 员 为 高 性 能 计算 服务 器 、 桌 面 计算 系统 、 手 持 
设备 编写 高 效 轻便 的 代码 ,而 且 广 泛 适用 于 多 核心 处 
理 器 (CPU) ,图 形 处 理 器 (GPU) , Cell 类 型 架构 以 及 数 
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(13) ocl。 
ocl 全 称 是 OpenCL-accelerated Computer Vision. 


OpenCL( 全 称 Open Computing Language. JT HOZ 


字 信 号 处 理 器 (DSP) 等 其 他 并 行 处 理 器 ,在 游戏 ,娱乐 、 图 2-41 objdetect 效果 展示 


科研 、 医 疗 等 各 个 领域 都 有 广阔 的 发 展 前 景 。 


(14) photo。 
photo 的 全 称 是 Computational Photography. 主要 功能 是 图 像 的 修复 和 图 像 去 噪 两 


其 中 包含 的 算法 有 如 下 几 项 : 


CV EXPORTS W void inpaint 

CV EXPORTS W void fastNlMeansDenoising 

CV EXPORTS W void fastNlMeansDenoisingColored 

CV EXPORTS W void fastNlMeansDenoisingMulti 

CV EXPORTS W void fastNlMeansDenoisingColoredMulti 


其 中 inpaint 函数 是 图 像 去 水 印 的 算法 ,而 后 边 的 四 个 都 是 在 各 种 场合 下 适用 的 非 局 部 


均值 去 品 算 法。 


(15) stitching, 
stitching 的 全 称 是 images( 图 像 ) stitching( 连 接 ), 即 图 像 拼接 模块 ,其 主要 功能 如 下 : 


拼接 流水 线 、 特 点 寻找 和 图 像 匹配 、 估 计 旋转 .自动 校准 .图 片 牌 斜 、 接 缝 估 测 、 曝 光 补 偿 、 图 
片 混合 。 


(16) superres。 

superres 的 全 称 是 Super Resolution , 即 超级 分 辩 率 技术 相关 功能 模块 。 

(17) ts, 

ts 的 全 称 是 OpenCV 测试 代码 ,没有 研究 的 价值 ,这 里 不 做 细 究 。 

(18) video, 

video 正如 其 字面 意思 ,是 视频 分 析 组 件 , 该 模块 包括 运动 估计 、 背 景 分 离 、 对 象 跟踪 等 


视频 处 理 相关 内 容 。 


(19) videostab, 
videostab 的 全 称 是 Video( 视 频 ) Stabilization( 稳 定 ) , 即 视频 稳定 模块 ,该 模块 主要 用 


来 介绍 如 何在 做 视频 处 理 的 过 程 中 尽量 保持 视频 稳定 性 中 。 


以 上 就 是 OpenCV 的 所 有 模块 ,相信 了 解 了 这 些 再 有 的 放 矢 , 学 习 效 率 会 大 大 提高 。 
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2.5 OpenCV 环境 搭建 中 常见 的 问题 及 解决 方案 


搭建 OpenCV 环境 时 经 常会 遇 到 各 种 各 样 的 问题 ,可 能 是 兼容 性 问题 ,也 有 可 能 是 路 
径 等 问题 。 虽 然 解决 起 来 没有 很 大 难度 ,但 是 解决 的 过 程 中 会 浪费 大 量 的 时 间 和 精力 。 本 
节 将 把 常见 的 OpenCV 环境 搭建 容易 出 现 的 问题 一 一 列 出 来 ,分 析 原因 ,并 给 出 解决 方案 ， 
希望 可 以 帮助 读者 减少 在 环境 搭建 时 浪费 的 时 间 。 


2.5.1 无 法 启动 程序 


“无 法 启动 程序 ”通常 会 以 如 图 2-42 所 示 的 方式 展现 出 来 ,无 法 启动 程序 后 边 会 跟 一 个 
路 径 , 顺 着 这 个 路 径 查 找 后 会 发 现 这 个 文件 夹 内 什么 都 没有 。 


Microsoft Visual Stud Wc 


无 法 启动 程序 “D:\Visual Studio 
codes\OpencvTest\Debug\OpencvTest.exe" , 


系统 找 不 到 指定 的 文件 , 


图 2-42 常见 错误 一 一 无 法 启动 程序 


导致 这 个 问题 的 原因 可 能 是 计算 机 装 过 高 版 本 的 Visual Studio, 但 是 因为 一 些 原因 需 
要 印 载 ,在 没有 印 载 干净 的 情况 下 ,就 重新 装 了 低 版 本 的 Visual Studio。 不 同 的 架构 导致 了 
这 个 问题 。 

同一 个 安装 错误 也 会 导致 如 下 所 示 的 另 一 个 错误 : 

LINK: fatal error LNK1123; 转换 到 COFF 期 间 失 败 : 文件 无 效 或 损坏 。 

解决 方案 : 

方案 一 ,在 之 前 配置 过 程 中 如 果 没 有 将 “嵌入 清单 选项 改 成 “和 否 ”, 则 需要 重新 修改 。 

方案 二 ,如 果 “ 艇 入 清单 选项 已 经 改 为 “和 否 之 后 仍 会 出 现 这 个 情况 ,那么 就 需要 找到 计 
算 机 中 的 cvtres. exe 文件 。cvtres. exe 是 资源 转换 器 程序 . Windows 下 的 资源 是 用 脚本 来 
描述 的 ,例如 资源 中 定义 的 菜单 、 对 话 框 等 ,这 种 脚本 表示 的 资源 后 缀 名 是 . res 和 rc. exe, 
对 脚本 进行 处 理 ,过 程 类 似 于 代码 的 编译 一 一 脚本 被 处 理 成 二 进 制 格式 ,处 理 后 的 二 进 制 文 
件 要 想 链 接 到 exe 中 供应 用 程序 使 用 ,要 使 用 cvtres 将 上 面 的 二 进 制 文件 转换 到 通用 对 象 
文件 格式 (COFF) 的 资源 文件 ,这 样 link 才能 链接 到 程序 中 中 。 

要 找到 cvtres. exe 文件 ,需要 在 整 台 计 算 机 中 搜索 该 文件 ,这 个 过 程 需 要 的 时 间 有 些 
长 ,搜索 的 结果 正常 会 有 2 一 3 个 cvtres. exe 文件 ,如 图 2-43 所 示 ,但 实际 上 会 出 现 很 多 个 ， 
VS 会 在 每 一 次 安装 生成 这 些 文件 ,但 是 在 每 次 印 载 时 都 没 办 法 自动 地 清除 这 些 文件 , 才 导 
致 了 这 个 情况 。 

解决 方案 是 查看 每 一 个 cvtres. exe 文件 的 属性 ,查看 每 个 cvtres. exe 文件 的 版 本 号 ,如 
图 2-44 所 示 。 
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E 
TERS DA, BPEEMRRSI.. 
E cvtres.exe EER 2013/9/11 21:21 
一 CAWindowsWicrosoftNETVramework4.0.30.. SE: BEEF. Xd« 415 KB. 
E) cvtres.exe FERE 2013/9/11 1939. 
& CAWindows Microsoft NET\Framework64\v4.0.. SE: ELEC 大 小 450 KB. 
B cvtres.exe.config SEBE 2013/9/11 1650 
CAWindows\Microsoft NET\Framework\v4.0.30.. S£ XML Configuration Fle 大 小 281385 
B cvtres.exe.config SER: 2013/9/11 1631 
— CAWindows|Microsoft NETVramework64 4.0... =E: XML Configuration File. 大 小 281 ai 
[g J cviresexe N$ 2010/3/18 1427 
DAVisual ShudioWVCVbinvamd64 La Avis 348 KB 
E esas (ERE 2010/3/18 13:16 
DAVisual Sudio\WC\bin Ed 小: 303 KB 
g wiwa ama f: ER 2009/6/11 5:22 
CAWindows\Microsoft NETVrameworkw2.0.50.. — 3:03; 应 用 程序 ud 313 KB. 
E gr evtresexe (REIR 2009/6/11 522 
CAWindows winss B6 neth-cetres for.vc and. SE: GBERE Job 313 KB 
7 cvtresexe E 2009/6/11 439 
CAWindowsMicrosoftNETVromework6AN2.0.. SE: 应 用 程序 大 小 37.3 KB 
m cvtres.exe. SERE 2009/6/11 4:39. 
CAWindows\winsxs\amd64_netfx-cvtres _for wc .. SE: 应 用 程序 us 37.3 KB 


trapu: 
mum GG JEREZ. O Internet D Zeng 


图 2-43 常见 错误 一 一 查找 cvtres. exe 文件 


查看 产品 名 称 , 如 果 产 品名 称 是 图 2-44 中 的 Microsoft. NET Franmework 或 Microsoft 
Visual Studio 2005 或 者 是 其 他 ,不 要 改动 。 如 果 文 件 是 如 图 2-45 所 示 的 Microsoft Visual 


Studio 2010, 则 从 这 些 文件 中 再 查看 版 本 号 ,将 文件 中 较 旧 的 版 本 删除 或 者 重 命 名 即 可 。 


版 权 


大 小 


语言 


Microsoft® Resource File To COFF ... 
应 用 程序 
11.0. 50938. 18408. 

isrosoftt franevork. 
11.00. 50838. 18406 
© Microsoft Corporation. All righ 
41.5 KB 


修改 日 期 2013/9/11 21:21 


E onresexe Ht | 


类 型 应 用 程序 


版 权 
大 小 34.8 KB 


文件 说 明 Microsoft® Resource File To COFF .. 


Microsoft® Visual Studio 2010 
10. 00. 30319. 
© Microsoft Corporation. All rig. 


APRENI 2010/3/18 162 
E Bi 


Lx.) (mA | em 


2-44 常见 错误 一 一 cvtres. exe 的 版 本 型 号 


所 有 可 以 删除 的 文件 也 可 以 用 文件 重 命名 的 方式 修改 ,而 且 建议 使 用 重 命名 的 方式 进 
行 修改 。 例 如 上 面 的 cvtres. exe 文件 ,为 了 让 其 不 正常 运行 ， 


图 2-45 常见 错误 


cvtres. exe 版 本 型 号 的 查询 


将 名 字 改 为 “cvtres( 删 除 ). 
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exe? 或 者 是 其 他 名 字 即 可 。 这 样 相 当 于 删除 了 这 个 文件 ,并 且 假如 文件 删除 错误 ,仍然 可 以 
搜索 cvtres. exe 将 该 文件 找 出 来 ,如 图 2-46 所 示 。 


[ Ts [<<= x 
LII s-me 

gi viresexe pasm 2003/91 2121 

CAWindows\Microsoft NET Frameworkwd 030. = BERE AN ALS KB 

T vtrese, san 2013/9/11 1939 

PL. CAWindow\Microsont NETVFramework6 AdO SE EE 

国 esee conta URGE 2015/11 1650 

ES. Ci MindownMicroscit NET Vremecrklel 0 30 ==. XML Configuration Fie Xiamen 


j) wweseecona 


o cnresexe 
PL. cwindowsMicrosofuNErWrameworkwz2050 。 SE BEE 


fg] enresene 
 CAWindowshwinsis 86 nethcires for wand- SE BRE 


go cmresexe 


E. C Windows Microsoft NEN Frameworkósv4 0. s, XML Configuration Fie 


RENE 2013/9/11 1631 
ANB 


mim 2010/15 957 
xd anikm 


SECURE 2010 1/5 957 
x3L3 KB 


Saa 2010/11/5 956 


CAWindow\Microsok NETFromeworkó a20. E SBE xime 

| cmresexe manm 201015 956 
CNWindowswinsawmd6t neticsrer forc. S8 EUER ENIK 

qi vtresexe sasa 2010/18 1427 

PI povszotowobinumde Lud m 

8 | vires) exe Pa 2010/31 1316 
DAVS2010VObin =D anar 30368 

[E esee PREIE 2009/6/11 522 
CNWindowewineasva6 raices for ve and- E BEE x 313KB 


图 2-46 以 重 命名 方式 修改 cvtres. exe 文件 


2.5.2 文件 缺少 MSVCP110D. dll 


“文件 缺少 MSVCP110D. dll” 可 能 是 因为 曾经 装 过 VS 2012, 印 载 后 使 用 VS 2010,38 
行程 序 时 会 出 现 的 错误 ,这 种 错误 通常 会 以 如 图 2-47 和 图 2-48 的 形式 表现 出 来 。 


e 无 法 启动 此 程序 , 因为 计算 机 中 丢失 MSVCP110D.dll。 尝 试 重新 安装 
该 程序 以 解决 此 问题 . 


e 无 法 启动 此 程序 ,因为 计算 机 中 丢失 MSVCP100D.dll。 兰 试 重 新 安装 
该 程序 以 解决 此 问题. 


图 2-48 常见 错误 一 一 缺失 MSVCP100D. dll 


遇 到 这 两 种 情况 比较 麻烦 ,下面 给 出 两 种 解决 方案 , 供 读者 尝试 。 
方案 一 : 
先 给 出 缺少 MSVCP110D. dll 的 解决 方案 .缺少 MSVCP100D. dll 与 缺少 MSVCP110D. dll 
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的 解决 方法 是 一 样 的 。 
首先 要 到 Microsoft 官网 下 载 一 个 插件 ,下 载 地 址 如 下 : 


http://www. microsoft. com/zh - CN/download/details.aspx?id= 30679 
之 后 选择 “中 文 (简体 )" 选 项 ,并 下 载 ,如 图 2-49 所 示 。 
Visual C++ Redistributable for Visual Studio 2012 Update 4 


— = : 


Visual C++ Redistri P Visual Studio 2012 生成 的 C++ 
应 用 程序 所 必需 的 运 | 二 


=E 


on dif 


A amme 


图 2-49 MSVCP110D. dll 下 载 


下 载 选项 要 根据 计算 机 的 系统 选择 x64 或 者 x86 ,这 里 不 是 指 编写 x86 或 是 x64 的 程 
序 , 示 例 中 的 计算 机 是 64 位 系统 ,因此 选择 的 也 是 x64, 如 图 2-50 所 示 。 


选择 您 要 下 载 的 程序 


[3 xf 名 大 小 

[E VSUAWcredist arm.exe 14 MB 
[M] vsu4wcredist x64.exe 6.9 MB 
[E VSUAWcredist x86.exe 63 MB 


图 2-50 MSVCP110D. dll 型 号 选择 


下 载 完 成 之 后 安装 即 可 ,正常 的 安装 界面 如 图 2-51 所 示 , 如 果 计算 机 曾经 安装 过 这 个 
插件 , 单 击 “ 修 复 ” 按 钮 即 可 ,如 图 2-52 所 示 。 


1B Microsoft Visual C++ 2012 Redistributable (x64... — = BEJI 


Microsoft Visual C++ 2012 
Redistributable (x64) - 11.0.60610 
安装 进度 


正在 处 理 : 正在 初始 化 .… 


L s J 


图 2-51. MSVCP110D. dll 安装 
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Microsoft Visual C++ 2012 
Redistributable (x64) - 11.0.61030 


修改 安装 程序 


图 2-52 MSVCPI10D. dll 修复 


安装 成 功 的 界面 如 图 2-53 所 示 。 
缺少 MSVCP100D. dll 的 解决 方案 也 是 一 样 的 ,在 该 网 站 上 寻找 C++2010 版 本 , 按 上 述 
步骤 安装 即 可 。 


Microsoft Visual C++ 2012 
Redistributable (x64) - 11.0.61030 


设置 成 功 


图 2-53 MSVCP110D. dll 安装 成 功 


方案 二 ， 
直接 去 下 载 MSVCP110D. dll 文件 ,如 果 没 有 合适 的 网 址 ,下 面 给 出 一 个 可 以 供 读者 参 
考 的 下 载 网 址 : 


www. zhaodll.com 
下 载 好 MSVCP110D. dll 之 后 ,将 这 个 文件 复制 到 C 盘 中 的 System32 或 SysWOW64 文件 
夹 中 ,其 路 径 如 下 所 示 : 


C:\Windows\System32 

C:\Windows\SysWOWG64 

复制 的 原则 是 : 如 果 计 算 机 系统 是 32 位 的 就 复制 到 System32 文件 夹 中 ,如 果 计 算 机 
系统 是 64 位 的 就 复制 到 SyssWOW64 文件 夹 中 。 

复制 完成 之 后 单 击 “ 开 始 ” 一 “运行 ”命令 ,之 后 输入 regsvr32 msvepllOd. dll, 如 图 2-54 
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所 示 , 完 成 之 后 不 论 是 什么 结果 ,都 重启 计算 机 ,再 回 到 VS 中 ,重新 运行 之 前 的 程序 ,就 不 
会 遇 到 这 个 问题 了 。 


Windows 梅 根据 您 所 输入 的 名 称 ,为 您 打开 相应 的 程序 、 
= 文件 去 、 文 档 或 Internet 资源 . 


图 2-54 注册 msvcp110d. dll 


2.5.3 Cannot find or open the PDB file 
在 测试 的 过 程 中 可 能 会 出 现 如 图 2-55 所 示 的 Cannot find or open the PDB file 错误 。 


调试 ` Jl; 
"Opencvtest 1. exe" : 已 加 载 “C:\Windows\SysWOW64\gdi32. 411” 
"Üpencvtest 1. exe" : 已 加 载 “C: WindowsASysWOW64X1pk 411” 
"Opencvtest 1. exe" : 已 加 载 “C: Windows\SysWOW64Vusp10. all” r Cannot Frad Tre 
"Qpencvtest 1. exe" : 已 加 载 “C: \Windows\SysW0W64\msvcrt. dll" » Cannot find or open the PDB file 
"Opencvtest 1. exe" : 已 加 载 “C: Windows\SysWOW64\advapi32. d11" , Cannot find or open the PIB file 


m uu t 


图 2-55 常见 错误 一 一 Cannot find or open the PDB file 


这 种 情况 一 般 是 第 一 次 将 OpenCV 库 放 在 VS 2010 中 运行 时 会 出 现 。 如 果 选 择 
Release, 反 而 不 出 现 这 个 错误 ,这 是 因为 每 次 在 使 用 时 都 需要 联网 下 载 一 些 字 体 文件 ,这 个 
问题 的 解决 方案 如 下 。 

(1) 确保 自己 的 计算 机 处 于 联网 状态 ,没有 网 络 是 没 办 法 下 载 的 。 

(2) 在 VS 2010 最 上 方 的 工具 栏 中 选择 “工具 ”一 “选项 ”命令 ,如 图 2-56 所 示 。 

(3) 进入 “选项 ”界面 之 后 找到 “调试 ”选项 ,选择 “调试 "中 的 “符号 ”选项 ,如 果 第 一 次 出 
现 这 类 问题 会 与 图 2-57 所 示 一 致 。 在 右 侧 选中 “Microsoft 符号 服务 器 " 复 选 框 , 单 击 “ 确 
定 ” 按 钮 。 

(4) 再 次 单 击 “ 确 定 ” 按 钮 会 回 到 主 界面 。 这 时 候 需 要 随意 运行 一 个 小 程序 ,让 VS 
2010 从 服务 器 上 下 载 这 些 字体 符号 ,选择 的 程序 可 以 是 2. 3. 9 节 中 的 环境 测试 的 小 程序 ， 
如 图 2-58 所 示 。 编 写 完 程序 后 ,在 Debug 下 选择 x64 平台 编译 ,最 后 单 击 “ 运 行 ” 按 钮 或 者 
按 F5 键 运行 程序 即 可 。 

G) 这 次 运行 程序 的 时 间 相 对 较 长 ,因为 这 次 不 仅仅 要 编译 并 运行 程序 ,还 要 将 程序 编 
译 过 程 中 需要 的 符号 从 服务 器 下 载 下 来 ,因此 需要 更 多 的 时 间 。 

(6) 下 载 完成 之 后 ,程序 即 可 正常 运行 。 这 时 需要 修改 一 下 符号 的 来 源 位 置 ,如 果 仍然 
选择 从 “服务 器 下 载 ”, 那 么 每 次 运行 都 需要 消耗 下 载 符 号 的 时 间 。 可 以 将 符号 来 源 选 择 为 
已 经 下 载 好 的 本 地 文件 ,这 样 可 以 避免 每 次 运行 重新 下 载 .解决 方案 如 下 : 
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E#include<opencv2/opd 


using namespace cv; 


? 
3 
L Evoid nain() 
5 
3 


Mat srclmage = i 
inshov( Elf b. 
waitKey (0) ; 

1 


”环境 

> 项 目 和 解决 方案 
b 源 代码 管理 

o 文本 编辑 器 


sum 
本 机 


CAUsersVZlese MppDateiLocal Temp SymbolCache 
输出 窗口 

b InteliTrace jn 有 符号 [ mem 

对 以 下 模块 自动 加载 符号 : 

9 除 排除 模块 之 外 的 所 有 模块 (A) 


指定 


> Workflow Designer 
> BIR 


2-57 Cannot find or open the PDB file 解决 步骤 第 二 步 


在 下 载 完 所 有 的 符号 ,程序 可 以 正常 运行 一 次 之 后 ,按照 步骤 (3) ,找到 “符号 ”选项 。 取 
ifi rh“ Microsoft 符号 服务 器 ? 复 选 框 ,同时 复制 下 方 存放 符号 的 文件 夹 路 径 ,如 图 2-59 所 示 。 
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T ERDE "esti (4988) Etincludecopencv2/ opencv. hpp? 
4 testi using namespace cv; 
» Gu anam 


Evoid main() 


Ca 头 文件 
4 访 源 文件 Mat srcInage = imread("D:\Peashooter. jpg") 
&] 2016 7 17.cpp inshow( EI E77, srcInage) ; 
Ca 资源 文 件 waitKey(0) ; 
9 [I 


2-58 Cannot find or open the PDB file 解决 步骤 第 三 步 


输出 窗口 


b IntelliTrace | BERSED ——— 


> Workflow Designer 
b RIA 


2-59 Cannot find or open the PDB file 解决 步骤 第 四 步 


在 完成 这 些 之 后 单 击 右 上 角 的 小 文件 夹 图 标 ( 即 “新 增 ” 选 项 ) ,此 时 下 面 会 出 现 一 个 路 
径 栏 ,将 之 前 复制 下 来 的 路 径 粘 贴 到 这 里 ,如 图 2-60 所 示 , 复 制 完 成 之 后 单 击 “确定 ”按钮 即 
可 回 到 主 界面 。 

(7) 再 次 运行 程序 ,如 果 这 次 程序 运行 不 出 现 错误 ,那么 以 后 运行 其 他 程序 也 不 会 出 现 
这 样 的 错误 了 。 
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符号 文件 (.pdb) 位 置 (R: 1 oJ EA 


E Microsoft 13885588. 
IV] CAUsersVZlaseVAppDataVLocaNTempYSymbolCache. 


在 此 目录 下 缕 存 符号 : 
CAUsers\Zlase\AppData\Loca\Temp\SymbolCache [ 
输出 窗口 


b IntelliTrace 清空 符号 组 存 (E) 


2-60 Cannot find or open the PDB file 解决 步骤 第 五 步 


2.5.4 文件 缺少 tbb debug. dll 


“文件 缺少 tbb debug. dll”tbb 库 与 OpenCV 没有 太 大 的 关系 ,而 且 在 后 面 的 CUDA BÉ 
动 GPU 做 并 行 处 理 的 过 程 中 已 经 安装 了 tbb, 所 以 这 个 问题 不 是 很 常见 。 

文件 中 缺少 tbb_debug. dll 的 解决 方案 如 下 。 

首先 下 载 一 个 tbb4l 201303140ss win. rar 文件 ,将 其 解压 后 的 bin 文件 夹 中 所 有 的 文 
件 复制 到 : 


D:\opencv\build\common\ tbb 
第 二 步 在 环境 变量 (也 就 是 之 前 2. 3. 2 节 介绍 的 path) 中 添加 : 
D:\opencv\build\common\ tbb\ ia32\vc10 


即 可 解决 这 个 问题 。 


2.5.5 应 用 程序 无 法 启动 0xc000007b 


“应 用 程序 无 法 启动 0xc000007b” 这 个 问题 不 止 出 现在 OpenCV 编译 程序 时 ,编译 其 他 
3E OpenCV 程序 时 也 可 能 会 出 现 这 个 情况 ,所 以 解决 方案 也 五 花 八 门 ,下 面 将 列举 可 行 性 
较 强 的 方案 供 读者 参考 : 

(1) lib 文 件 包含 问题 。 

如 果 是 lib 文件 包含 错误 ,就 说 明之 前 的 配置 过 程 出 现 了 问题 。 检 查 的 方式 是 建议 从 
2. 3. 3 节 开 始 重 新 配置 。 

错误 可 能 出 现 的 原因 有 如 下 两 种 : 

。 路 径 添加 错误 ,配置 OpenCV 路 径 时 在 Path 中 没有 将 所 有 要 添加 的 路 径 都 添加 进 
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去 ,或 者 是 添加 后 没有 用 “;” 隔 开 。 
* lib 文件 放 和 位置 错误 ,正常 的 32 位 系统 ,要 将 x86 中 的 lib 文件 放 在 System32 X 
件 夹 中 ,而 64 位 系统 需要 将 x64 文件 夹 的 lib 文 件 放 在 SysWOW64 文件 夹 中 。 

(2) DirectX 9.0 组 件 损坏 。 

这 个 方案 可 能 与 本 次 OpenCV 的 配置 没什么 直接 关系 ,但 是 同样 作为 驱动 GPU 实现 
图 像 显示 的 插件 ,也 可 能 是 这 个 原因 导致 的 ,解决 方案 是 重新 安装 或 修复 DirectX. 系列 
文件 。 

因为 不 确定 是 否 仅 有 一 个 DirectX 9. 0 被 损坏 ,所 以 选 了 一 个 可 以 测试 所 有 DirectX 系 
列 文件 的 软件 : DirectX 9.0 软件 ,其 Logo 和 安装 包 的 外 貌 如 图 2-61 所 示 。 

下 面 将 提供 两 款 DirectX 修复 工具 : 一 款 是 用 在 Windows 7 上 的 ,另外 一 款 是 用 在 
Windows 8 和 Windows 10 上 的 ,这 两 款 软件 都 在 同一 个 文件 夹 中 。 读 者 可 以 去 DirectX 官 
网 自行 下 载 或 者 按照 如 下 所 示 的 百度 网 盘 链 接 进 行 下 载 。 

DirectX 修复 工具 链接 : 


链接 : http://pan. baidu. com/s/1jHN6m5w 密码 : blq9 


下 载 并 解压 完成 之 后 会 出 现 如 图 2-62 所 示 的 文件 , 左 侧 为 压缩 包 , 右 侧 两 个 是 解压 之 


后 的 文件 。 
~ 
DirectX Repair- ”下载 涪 明 htm DirectX Repair 
v3.5zip V3.5 (Enhanced 
Edition) 
图 2-61 DirectX 9.0 c Logo 图 2-62 DirectX Repair 文件 下 载 


打开 解压 后 的 文件 夹 , 其 中 有 两 个 . exe 文件 ,如 图 2-63 所 示 , 上 方 的 , exe 文件 是 在 
Windows 7 系统 下 使 用 的 ,下 边 的 . exe 文件 是 在 Windows 8 和 Windows 10 系统 下 使 用 的 。 


名 称 修改 日 期 aem 大 小 
Jk Data 2016/6/23 13:04 xm 


ë) ET 2016/6/22 17:42 — 1KB 


目 常见 问题 解答 ,bd 2016/6/22 1644 — 文本 文档 21KB 
图 更 新 日 志 bt 2016/6/23 10:57 。 文本 文档 21KB 
D 技术 文档 .bt 2016/6/22 16:51 文本 文档 6KB 
O 使 用 说 明 .bt 2016/6/22 17:43 文本 文档 14KB 
Ej StWindows Xp 用 户 .bd 2016/6/22 16:55 。 文本 文档 1KB 


2-63 DirectX Repair 文件 安装 包 


示例 中 使 用 的 是 Windows 7 系统 ,双击 上 方 的 . exe 文件 ,会 进入 如 图 2-64 所 示 界 面 ， 
单 击 “ 检 测 并 修复 "按钮, 等待 即 可 。 
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信息 
当前 任务 : 
当前 文件 : 
THERE: pÁ 


文件 名 文件 杖 态 G2 位 ) 修复 情 品 文件 杖 态 84 位) BRRR 人 
ddeonpiler_33. dll a 

dBdconpiler_34. 11 

dSdconpiler 35. dll 

d3dconpiler 36. dll 

dBdconpiler 3T. 1l 

dSdconpiler 38. d1l 

dBdconpiler 39. dll 

dSdconpiler 40. dll 

dBdconpiler 41. dll 

dSdconpiler 42.411 

dSdconpiler 43. dll 

d3desx 42. dl. 


Microsoft Windows 7 BURAK (6.1.7601.65536) 64 位 


图 2-64 DirectX Repair 修复 过 程 


如 果 出 现 如 图 2-65 所 示 的 自动 更 新 C++ 库 的 程序 ,可 以 单 击 “ 取 消 ” 按 钮 更 新 ,这 个 更 
新 的 过 程 不 会 影响 后 续 的 修复 步骤 。 
当 全 部 修复 完成 之 后 会 弹出 如 图 2-66 和 图 2-67 所 示 的 结束 窗口 。 


(Q ce 2005 Redistributable Package 
=p ctt 2008 Redistributable Package 
cH 2010 Redistributable Package 
ctt 2012 Redistributable Package 
ctt 2013 Redistributable Package 


ctt 2015 Redistributable Package 


图 2-65 DirectX Repair 更 新 C++ 库 图 2-66 DirectX Repair 检测 结果 


2.5.6 找 不 到 头 文 件 


这 个 问题 一 般 显 示 为 : 找 不 到 xxxxxx.h 文 件 。 

出 现 这 个 问题 是 因为 前 面 环境 配置 过 程 的 某 一 步 出 现 了 错误 ,导致 程序 找 不 到 头 文件 ， 
可 能 的 原因 有 以 下 几 点 。 

1. 路 径 

例如 版 本 OpenCV 2. 4. 9. TE opencv 文件 夹 中 有 一 个 include 文件 夹 。 但 是 在 正常 配置 
时 需要 的 是 build 文件 夹 中 的 include 文件 夹 ,而 不 是 之 前 所 说 的 opencv 文件 夹 下 的 include. 
所 以 千 万 不 能 搞 错 路 径 。 
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信息 


当前 文件 : 
St EM 


文件 名 文件 杖 态 G2 位 ) 修复 情况 “文件 杖 态 64 位 ) 修复 情况 ^ 
XAudio2 0. dll ok! OK! 
XAudio2 1. dl ok! 
XAudio2 2. dl ok! 
XAudio2 3. dll OK! 
Xhudio2_4. dl oK! 
Xhudio2_5. dll ok! 
Xhadio2_6. dl ok! 
XAudio2 T. 1l oF! 
xinputl 1. dll OK! 
xinputl 2. dll oK! 
xinputi, 3. dl ok! 


Microsoft Windows 7 MURAK (6.1.7601.65536) 64 位 


图 2-67 DirectX Repair 检测 和 修复 完成 


2. 附加 依赖 项 

属性 配置 时 ,在 添加 Release 中 “附加 依赖 项 ”这 一 步 ,添加 的 lib 文件 没有 将 末尾 的 d 
去 掉 , 如 Debug 的 附加 依赖 项 为 opencv_highgui249d. lib, 而 在 Release 中 应 该 为 opencv_ 
highgui249. lib, 

3. 编程 习惯 

编写 程序 的 头 文件 时 ,需要 将 头 文件 的 路 径 也 加 进去 ,例如 原本 包含 的 头 文件 为 : 


# include < highgui. h> 
现在 可 以 换 一 种 写法 : 


# include < opencv2/highgui/highgui c.h» 
# include < opencv2/highgui/highgui.hpp > 


4. 没有 此 类 头 文件 

出 现 * 找 不 到 头 文件 ”的 错误 ,也 可 能 是 根本 没有 这 种 头 文件 。 被 调用 的 头 文件 不 是 
OpenCV 或 者 是 系统 自 带 的 头 文件 。 

2.5.7 无 法 打开 lib 文件 

这 种 错误 通常 会 表现 为 : 

fatal error LNK1104: 无 法 打开 文件 opencv_m1249d. lib 

这 种 错误 是 由 于 之 前 配置 过 程 不 完全 正确 而 导致 的 ,最 可 能 的 原因 如 下 : 


在 添加 附加 依赖 项 时 ,在 填写 opencv_ml249d. lib 时 在 前 边 加 上 了 一 个 空格 , 即 
“opencv_ml249d. lib” 这 样 的 情况 也 算 添 加 失败 ,会 报错 。 
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如 果 不 是 空格 导致 错误 ,建议 检查 之 前 进行 的 include 配置 、 库 目录 配置 和 附加 依赖 项 
配置 。 

如 果 上 述 两 种 方案 都 没有 解决 这 个 问题 , 则 需要 一 种 比较 麻烦 的 方法 。 

按照 2. 3.3 节 的 介绍 , 回 到 项 目的 属性 配置 页 面 。 在 “配置 属性 ”中 找到 “链接 器 ”选项 ， 
打开 后 选择 “常规 ”选项 ,在 右 侧 可 以 看 到 “附加 库 目 录 ” 选 项 ,如 图 2-68 所 示 。 


m| 平台 (Ph T 


 EECINMENENENEEEEEEEEEEEEN sou" oer sro 
未 设置 


ETER 


> CUDA Linker 


图 2-68 无 法 打开 lib 文件 解决 方案 第 一 步 
打开 “附加 库 目 录 ” 选 项 ,编辑 其 中 的 lib 路 径 , 如 图 2-69 所 示 o 


$(CudaToolkitLibDir) 


图 2-69 无 法 打开 lib 文件 解决 方案 第 二 步 
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这 里 添加 的 路 径 就 是 缺失 的 lib 文件 的 路 径 , 缺 少 的 lib 文件 只 能 到 opencv 文件 夹 中 
找 ,而 且 添加 路 径 仅 能 一 条 一 条 添加 ,所 以 这 个 方法 比较 麻烦 。 

例如 前 面 缺少 opencv_ml249d. lib 文件 ,现在 需要 在 opencv 文件 夹 中 找到 这 个 lib 3c 
件 , 并 添加 进去 ,示例 中 的 lib 文件 的 路 径 为 : 


D:VOpenCV2. 4. 9\opencv\build\x64\vc10\lib\opencv_photo249d. lib 


如 果 还 缺失 其 他 文件 ,也 可 以 通过 这 种 方式 进行 补充 .但 是 要 注意 Debug 和 Release 的 
lib 文件 是 不 同 的 ,也 需要 注意 带 “d” 和 不 带 “d” 的 区 别 。 
添加 完成 的 附加 库 目 录 如 图 2-70 所 示 。 


$(CudaToolkitLibDir) 


图 2-70 无 法 打开 lib 文件 解决 方案 第 三 步 


在 Debug F ,添加 完 附加 库 目 录 后 , 回 到 属性 页 面 的 Release 界面 重新 添加 一 次 即 可 解 
决 这 个 问题 。 


2.5.8 指针 越界 cv: :Exception 


这 种 错误 体现 为 : 程序 已 经 成 功 编译 ,但 是 在 运行 的 过 程 中 会 出 现 没 有 办 法 载 人 图 片 
或 空 指针 或 指针 溢出 的 情况 。 如 果 切 换 Debug 和 Release, 两 者 其 中 一 个 会 出 现 错误 ,另外 
一 项 是 可 以 正常 执行 的 ,如 图 2-71 所 示 。 

这 种 问题 不 是 因为 环境 搭建 出 错 造成 的 ,这 个 错误 其 实 是 OpenCV 2.4 系列 自身 的 一 
个 bug。 这 个 问题 的 核心 是 “附加 依赖 项 的 添加 问题 ,在 前 面 配置 附加 依赖 项 时 需要 先 配 
置 Debug 或 者 Release 其 中 之 一 ,然后 再 配置 另外 一 个 ,但 是 OpenCV 这 时 候 会 默认 选择 先 
填 人 的 附加 依赖 项 作为 调试 过 程 中 的 lib 文件 。 

简单 来 说 ,如 果 先 配置 好 Debug 后 再 配置 Release, 那 么 在 调试 的 过 程 中 就 会 出 现 
Debug 可 以 成 功 但 是 Release 报错 的 情况 ; 反之 ,如 果 先 配置 Release 再 配置 Debug ,调试 时 
会 出 现 Release 成 功 但 Debug 报错 。 

通常 情况 下 ,严格 按照 2. 3 节 的 配置 顺序 进行 配置 是 不 会 出 现 这 个 问题 的 ,但 是 在 实际 
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ronghel.exe 中 的 0x000007fefd319e5d 处 有 未 经 处 理 的 异常 : Microsoft C + 


++ S: 内 存 位 置 0x0025f680 处 的 cv-Exception. 


图 2-71 指针 越界 的 错误 提示 


使 用 中 如 果 出 现 这 种 问题 ,解决 方案 如 下 : 

新 建 一 个 项 目 文件 ,配置 好 Debug 后 ,将 程序 在 Debug 调试 模式 下 运行 一 次 ,这 个 结果 
应 该 是 成 功 的 (必须 在 路 径 中 添加 好 相应 的 图 片 ,否则 也 会 出 现 这 个 问题 ) ,之 后 再 打开 属性 
界面 ,在 Release 模式 下 将 环境 搭建 好 ,搭建 好 后 在 Release 调试 模式 下 运行 一 次 程序 ,就 可 
以 解决 这 个 问题 。 如 果 最 开始 是 在 Release 下 配置 好 ,然后 配置 Debug, 就 无 法 在 两 个 调式 
模式 下 均 顺利 运行 "。 

如 果 用 上 述 方法 没有 解决 该 问题 , 则 说 明 编写 的 程序 本 身 会 导致 指针 越界 ,需要 修改 已 
编写 的 程序 。 


2.5.9 x86 与 x64 类 型 冲突 


在 调试 程序 的 过 程 中 可 能 会 出 现 “ 模 块 计算 机 类 型 x64 与 目标 计算 机 类 型 x86 冲突 ”的 
问题 。 

出 现 这 种 问题 是 因为 编译 的 程序 是 x64 的 程序 ,但 是 使 用 的 是 x86 平台 ,或 是 因为 环境 
搭建 路 径 配置 时 ,没有 找到 正确 的 lib 文件 。 

解决 方案 : 

如 果 使 用 x64 的 程序 但 是 使 用 的 是 x86 平台 , 即 Win32 平台 ,只 要 将 平台 更 换 成 x64 
平台 即 可 ,如 图 2-72 所 示 。 


2-72 x86 与 x64 类 型 冲突 解决 方案 一 一 更 换 平台 


如 果 下 拉 列 表 框 中 没有 x64, 则 必须 新 建 一 个 x64 平台 ,具体 过 程 请 看 2.3.3 节 的 (4) 
和 (5) 两 步 。 

如 果 用 上 述 方案 仍然 无 法 解决 问题 ,那么 就 是 路 径 配 置 出 现 了 问题 , 即 没 有 把 x64 和 
x86 正确 地 加 入 进去 。 
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2.6 AK hg 


本 章 主 要 介绍 了 机 器 视觉 库 OpenCV 的 相关 知识 。2. 1 节 详 细 介绍 了 OpenCV 的 发 展 
历程 。2. 2 节 详 细 介绍 了 OpenCV 基于 的 C++ 开发 平台 Visual Studio, 并 介绍 了 如 何 安装 
Visual Studio 2010。2. 3 节 详 细 介 绍 了 OpenCV 2.4.9 在 Windows 系统 上 的 搭建 过 程 ,并 
给 出 一 个 可 以 进行 环境 测试 的 小 程序 。2. 4 节 介绍 了 OpenCV 2. 4. 9 的 基本 架构 ,在 搭建 
好 环境 后 可 以 直接 查看 这 些 源码 , 它 可 以 帮助 读者 对 OpenCV 架构 有 一 个 详细 的 了 解 。 
2.5 节 将 常见 的 OpenCV 环境 搭建 中 出 现 的 问题 进行 整理 ,并 给 出 了 详细 的 解决 方案 ,可 以 
帮助 读者 顺利 完成 环境 搭建 。 
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本 章 主 要 介绍 OpenCV 的 常用 函数 、 变 量 以 及 基本 数据 结构 。 在 此 基础 上 ,给 出 部 分 
应 用 示例 ,详细 讲解 反 向 、 滤 波 、 双 目 视觉 测 深度 算法 ,为 灵活 使 用 OpenCV 打下 基础 。 


3.1 OpenCV 常用 函数 


本 节 主 要 针对 OpenCV 中 最 常用 的 ,也 是 最 核心 的 Mat 类 、imread 函数 、imshow 函数 
以 及 imwrite 函数 进行 介绍 。 


3.1.1 Mat 类 


说 到 Mat 类 就 必须 要 介绍 一 下 OpenCV 2 系列 。 在 OpenCV 1 系列 的 函数 库 中 ,函数 
都 是 基于 C 接口 构建 的 ,使 用 名 为 IplImage 的 C 语言 结构 体 在 内 存 中 存储 图 像 , 用 法 类 似 
于 C 语 言 中 的 指针 ,在 使 用 函数 之 前 先 为 变量 开辟 内 存 , 使 用 之 后 释放 内 存 , 在 算法 复杂 度 
较 高 的 情况 下 ,指针 的 使 用 会 引起 内 存 混乱 。 而 在 OpenCV 2 系列 中 ,C++ 的 出 现 带 来 了 全 
新 的 Mat 类 ,使 OpenCV 能 执行 自动 的 内 存 管 理 , 也 就 是 说 ,在 使 用 OpenCV 时 不 必 再 进行 
手动 开辟 内 存 、 管 理 内 存 等 烦琐 的 工作 ,大 大 减少 了 开发 者 的 工作 量 。 自 动 开辟 指 的 是 程序 
自动 根据 需要 使 用 的 内 存 空间 ,合理 开辟 内 存 , 不 会 造成 资源 的 浪费 ,当然 如 果 必 要 ,也 可 以 
手动 开辟 内 存 空间 中。 

1. Mat 类 的 定义 

官方 手册 上 Mat 的 定义 是 : Mat 类 用 于 表示 一 个 多 维度 的 单 通道 或 者 多 通道 的 稠密 数 
组 ,能 够 用 来 保存 实数 或 复数 的 向 量 ,和 矩阵. 灰 度 或 彩色 图 像 .立体 元 素 ,点 云 , 张 量 以 及 直方 
pim. 

在 使 用 的 过 程 中 只 需要 记 住 两 点 : 

(1) Mat 类 用 来 保存 多 维度 的 矩阵 ; 

(2) Mat 类 不 需要 手动 开辟 内 存 , 也 不 需要 手动 释放 内 存 。 

2. Mat 的 数据 结构 

Mat 的 数据 结构 主要 包括 两 个 部 分 : Header 和 Pointer, KP Header 主要 包含 矩阵 
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的 大 小 ,存储 方式 ,存储 地 址 等 信息 ,而 Pointer 是 存储 指向 像素 值 的 指针 。 

Mat 类 的 常见 属性 如 下 : 

(D data, 

data 是 uchar 型 的 指针 ,也 就 是 上 述 指向 矩阵 内 数据 的 指针 。 

(2) dims, 

dims 指 的 是 矩阵 的 维度 .如 : 一 维 数组 dims—1; 二 维 矩 阵 dims 一 2 等 。 

(3) rows cols。 

rows 指 矩阵 的 行 数 ,cols 指 和 矩阵 的 列 数 。 需 要 注意 的 是 ,如 果 是 多 通道 的 彩色 图 像 ， 
rows 和 cols 分 别 表示 的 是 图 像 中 纵向 的 像素 点 数量 和 横向 像素 点 数量 ,这 与 通道 数 没有 
关系 。 

(4) channels。 

channels 指 矩 阵 的 通道 数 ,如果 读 入 的 是 图 像 ,也 指 图 像 的 通道 数 。 通 常 单 通道 的 图 像 
为 灰 度 图 像 ,彩色 图 像 有 三 通道 的 RGB Red, Green, Blue) [d f$ f VU iñ ič (f) RGBA (Red, 
Green、Blue、Alpha) 图 像 。 

(5) type. 

type 表示 矩阵 中 元 素 的 类 型 以 及 和 矩阵 的 通道 数 ,属于 预定 义 的 常量 ,其 命名 的 规 
WI ， 

CV_ 十 位 数 十 数据 类 型 十 通道 数 

如 : CV 8UCI 表示 8 位 , unsigned integer 无 符号 型 . 单 通道 ; 

CV_16SC2 表示 16 位 singed integer 有 符号 整数 、 双 通道 ; 

CV_64FC4 表示 64 位 float 浮 点 型 .四 通道 。 

其 具体 的 型 号 如 表 3-1 所 示 。 


表 3-1 type 常 量 
CV 8UCl CV 8UC2 CV. 8UC3 CV 8UC4 
CV. 8SC1 CV 8SC2 CV. 8SC3 CV 8SC4 
CV. 16UCI CV 16UC2 CV. 16UC3 CV 16UC4 
CV. 16SCI CV 16SC2 CV. 16SC3 CV 16SC4 
CV. 328Cl CV. 328C2 CV. 328C3 CV. 328C4 
CV 32FCl CV 32FC2 CV. 32FC3 CV. 32FC4 
CV 64FCl CV 64FC2 CV 64FC3 CV 64FC4 


(6) depth, 
depth 指 矩 阵 中 元 素 一 个 通道 内 的 数据 类 型 ,这 个 和 上 面 的 type 型 类 似 , 相 比 于 type 
更 加 简单 depth 常用 常量 如 表 3-2 所 示 。 


表 3-2 depth 常量 


CV_8U CV_8S CV 8F 
CV 16U CV 165 CV 8F 
CV 32U CV 328 CV 32F 
CV 64U CV 648 CV 64F 
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(7) elemSize, 


elemSize 是 指 矩 阵 中 一 个 元 素 占 用 的 字 节 数 , 其 值 为 : 


elemSize 一 通道 数 X 位 数 二 8 


CV_64FC4; elemSize 一 4X64 一 8 一 32bytes。 

(8) elemSizel, 

elemSizel 指 矩 阵 元 素 一 个 通道 占用 的 字 节 数 , 相 比 于 elemSize 仅 少 了 通道 数 , 如 : 
64FC4; elemSizel —64—8-— 8bytes, 


下 面 的 程序 详细 示范 了 Mat 属性 的 使 用 方法 及 效果 : 


# include < opencv2/opencv. hpp > 


# include < iostream> 


usingnamespace cv; 


usingnamespace std; 


void main() 


f 


) 


Mat img(3, 4, CV. 16UC4, Scalar < uchar^(1, 2, 3, 4)); 
cout «« img «« endl; 

cout ««"dins:"«« img. dims << endl; 

cout ««"rows:"«« img. rows << endl; 

cout ««"cols:"«« img. cols << endl; 

cout ««"channels:"«« img. channels() << endl; 
cout ««"type:"«« img. type() << endl; 

cout ««"depth:"«« img. depth( ) << endl; 

cout <<"elemSize:"<< img. elemSize() << endl; 
cout ««"elemSizel:"«« img. elemSizel() << endl; 
getchar(); 


该 程序 定义 了 一 个 3 行 4 列 4 通道 16 位 unchar 型 矩阵 ,存放 的 数值 依次 为 1.2、3、4。 
运行 结果 如 图 3-1 所 示 。 


图 3-1 Mat 属性 测试 结果 图 


除 以 上 介绍 的 几 种 Mat 属性 外 ,下 面 还 要 特别 指出 三 种 易 混淆 的 Mat 属性 : step. 
stepl 和 size。 不 过 在 此 之 前 需要 知道 OpenCV 内 对 于 维度 的 定义 。 
OpenCV 对 于 维度 的 定义 是 : 矩阵 的 深度 为 第 一 维 .矩阵 的 高 度 为 第 二 维 ,矩阵 的 宽度 
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为 第 三 维 。 用 一 个 例子 来 进行 说 明 , 如 图 3-2 所 示 ,该 矩阵 高 度 为 4, 宽度 为 5, 深度 为 3。 甜 
阵 的 面 就 是 其 第 一 维 , 也 就 是 矩阵 深度 ,例子 中 该 值 为 3; 矩阵 中 每 个 面 上 的 每 一 行为 第 二 
维 , 也 就 是 矩阵 高 度 ,例子 中 该 值 为 4; 矩阵 的 每 一 行 中 的 每 一 个 点 是 第 三 维 , 也 就 是 矩阵 的 
宽度 ,例子 中 该 值 为 5, 如 图 3-3 所 示 。 


第 三 维 ， 
每 一 行 上 的 点 
第 二 维 : 
! 每 个 面 上 的 行 
1 E 
ER s — 第 - 维 : i 
图 3-2 三 维 甜 阵 示意 图 图 3-3 OpenCV 对 三 维 矩阵 的 维度 划分 


(9) size, 

size 表示 每 一 维 元 素 的 个 数 , 通 常情 况 下 会 使 用 size[0] size[ 1] #l size[2] 来 分 别 表示 
和 矩阵 的 第 一 维 ` 第 二 维和 第 三 维 。 使 用 如 图 3-2 所 示 的 矩阵 ,对 应 的 取 值 为 size[0]=3, 
size[1] 一 4,size[2] 一 5。 

(10) step 

step 表示 的 是 每 一 维 的 元 素 的 大 小 ,单位 是 字 节 。step 与 size 用 法 类 似 , 也 是 用 step[ 0], 
stepL1] 和 step[2]。step[0] 表 示 第 一 维 的 元 素 的 大 小 , 即 每 个 面 的 元 素 的 总 字 节 数 ; step[1] 表 
示 第 二 维 的 元 素 的 大 小 , 即 面 上 的 每 一 行 的 元 素 的 总 字 节 数 ; step[2] 表 示 第 三 维 元 素 的 大 
小 , 即 每 一 行 中 的 一 个 元 素 的 总 字 节 数 。 

那么 对 于 之 前 的 矩阵 ,其 step 值 为 : 

step[2] 3X8 8-73; 

step[1] = step[2] X5 = 3x8+8X5 = 15; 

step[0] = step[1] X4 = 3X8-8X5x4 = 60; 

需要 补充 的 是 ,如 果 和 矩阵 是 二 维 矩 阵 ,那么 step[L0] 仍 然 表 示 一 维 元 素 的 大 小 ,但 是 这 个 
时 候 , 就 不 是 面 ,而 是 单个 面 中 的 线 , 也 就 是 一 行 元 素 所 占 的 字 节 数量 。 同 理 , step[1] 表 示 
二 维 元 素 的 大 小 , 即 矩 阵 中 一 个 元 素 的 大 小 ,而 step[2] 则 没有 意义 。 

(1D stepl, 

stepl 表示 每 一 维 元 素 的 通道 总 数 ,同样 的 step1(0) 是 一 维 元 素 的 通道 总 数 , 即 每 一 个 
面 上 所 有 元 素 的 通道 数 ; step1(1) 是 二 维 元 素 的 通道 总 数 , 即 每 一 个 面 上 的 每 一 行 的 元 素 
的 通道 数 ; step1(2) 是 三 维 元 素 的 通道 总 数 , 即 每 一 行 上 ,每 一 个 元 素 的 通道 数 。 还 是 用 前 
面 提 到 的 三 维和 矩阵 来 举例 ,那么 有 中 : 

step1(2) = 3; // 三 通道 


stepl(1)-23X5 = 15; 
stepl(0)-23xX5*x4- 60; 
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通过 以 下 程序 来 解释 一 下 size step 和 step1 的 区 别 ,程序 如 下 : 


# include < opencv2/opencv. hpp > 
# include < iostream > 
usingnamespace cv; 
usingnamespace std; 


void main() 

| 
int matSize[ ] = {3,4,5}; ”// 定 义 第 一 维 为 3; 第 二 维 为 4; 第 三 维 为 5 
Mat img(3, matSize, CV_8UC3, Scalar: :al1(0)); 


cout <<" —————— size 的 大 小 ------ "<< endl; 


ze[2] = "<< img. size[2] << endl; 


cout ««"size[1] = "<< img. size[1] << endl; 
cout ««"size[0] = "<< img. size[0] << endl; 


cout <<"\n -一 一 一 一 一 step 的 大 小 ------ "<< endl; 
cout ««"step[2] = "<< img. step[2] << endl; 
cout ««"step[1] = "<< img. step[1] << endl; 
cout ««"step[0] = "<< img. step[0] << endl; 


cout ««"An ------ stepl 的 大 小 ------ "<< endl; 


cout ««"stepl(2 «« img.stepl(2) «« endl; 


cout <<"step1(1) = "<< img.stepl(1) << endl; 
cout ««"stepl(0) = "<< img. step1(0) << endl; 


getchar(); 


程序 运行 结果 如 图 3-4 所 示 。 


图 3-4 Mat 中 size,step 和 stepl 的 区 别 


3.1.2 imread 函数 


imread 函数 是 OpenCV 2 系列 新 推出 的 读 和 图像 函 数 ,其 使 用 方式 和 MATLAB 中 的 
imread 函数 极为 相似 ,使 用 方便 ,减少 了 编程 时 的 难度 。 
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imread 函数 的 定义 为 : 
cv: :Mat imread(const string & filename, int flag -1); 


(1) const string & filename, 

这 个 参数 是 const string 类 型 的 filename, 需 要 在 这 里 放 和 人 默认 路 径 下 的 图 像 的 名 称 ， 
并 且 支 持 绝 大 多 数 的 图 像 格式 ,如 : JPEG 型 中 的 . jpeg.. jpg 文件 ; Windows 位 图 型 中 的 
. bmp X ff; 以 及 PNG 格式 下 的 . png 文件 等 。 

(2) int flag 一 1。 

这 个 参数 是 int 类 型 的 flags, 它 作为 一 个 图 像 读 入 的 标识 ,指定 了 图 像 读 入 的 颜色 类 
型 ,也 可 以 说 成 是 指定 读 和 人 通道 的 数量 。 若 不 指定 flag 参数 , 则 其 默认 值 为 1, 代 表 读 入 三 
通道 RGB WER. 

其 参数 值 有 如 下 几 种 : 

。 flat 二 0 一 一 图 像 以 单 通 道 灰 度 图 方式 读 和 人。 
flat 二 1 一 一 图 像 以 三 通道 RGB 方式 读 入 。 
flat 二 2 一 一 图 像 深度 车 为 16 位 或 32 位 , 则 以 相应 的 深度 进行 读 入 ,如 果 不 是 深度 
为 16 位 或 32 位 , 则 会 以 8 位 图 像 读 入 。 
flat 二 其 他 一 一 默认 与 flat 二 1 对 应 的 读 入 方式 一 致 。 在 从 前 的 版 本 中 ,flat 二 一 1 表 
示 读 入 8 位 有 颜色 图 或 灰 度 图 ,但 是 在 新 版 本 中 已 经 被 废 置 了 ,所 以 这 里 的 负数 部 


分 无 须 太 过 深究 。 
imread() 函 数 常 用 读 取 的 例子 如 下 : 
Mat img = imread("Peashooter. jpg"); //RGB 
Mat img = imread("Peashooter. jpg",0); // 灰 度 图 
Mat img = imread("E:\VisualStudio2012_code\Peashooter. jpg"); //RGB 


Mat img = imread("E:VVisualStudio2012 codeMPeashooter.jpg",2);  //RGBA 


3.1.3 imshow 函数 


imshow() 函 数 可 以 在 窗口 中 显示 图 像 ,与 MATLAB 中 imshow O PR 3 T- 2328 40] HE 
型 如 下 ， 


void cv::imshow( const std::string & winname, cv:: InputArray mat) 


头 文件 : highgui. hpp. MA EH]: cv. 

(1) const std: :string & winname 

winname 是 const string& 类 型 的 参数 ,为 显示 图 像 的 窗口 名 称 。 

(2) cv::InputArray mat 

mat 是 InputArray 参数 ,这 个 位 置 放 入 Mat 类 的 变量 , 即 图 像 存 储 的 变量 。 

在 使 用 imshow 函数 时 需要 注意 图 像 显 示 过 程 中 可 能 会 进行 缩放 ,其 具体 缩放 的 程度 
取决 于 原始 图 像 的 深度 ,具体 如 下 : 

(D 图 像 是 8 位 无 符号 型 , 则 输出 图 像 不 会 发 生 任 何 变化 ; 

© RRE 16 位 无 符号 型 或 32 位 整 型 .会 将 像素 值 除 以 255 显示 出 来 。 
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O 图 像 是 32 位 浮 点 型 ,像素 值 需要 乘 以 255 显示 出 来 。 
结合 Mat 类 ,imread() 和 imshow() 来 看 一 下 读 入 一 张 三 通 道 图 像 后 Mat 类 内 部 变量 
值 的 情况 ,对 应 的 程序 如 下 : 


* include < iostream> 
# include < opencv2/opencv. hpp> 
using namespace std; 


using namespace cv; 


int main(int argc, char * argv[]) 
1 
Mat img = imread("Peashooter. jpg") ; 
imshow("image", img); 
cout << "图 像 参数 如 下 :" << endl; 
cout << "dims:" «« img. dims << endl; 
cout << "rows:" << ing. rows << endl; 
cout «« "cols:" «« ing.cols «« endl; 
cout << "channels:" << img. channels() << endl; 
cout «« "type:" «« ing. type() «« endl; 
cout << "depth:" << img. depth() << endl; 
cout << "elemSize:" << img. elemSize() << endl; 
cout «« "elemSizel:" «« img. elemSizel() «« endl; 


cout << "An------ size $j X/------ " «« endl; 
cout << "size[2] =" << img. size[2] << endl; 
cout << "size[1] =" << ing. size[1] << endl; 
cout << "size[0] = " << ing. size[0] << end1; 


cout << An 一 -一 -一 一 step 的 大 小 ------ " << endl; 
cout << "step[2] = " << ing. step[2] << end1; 
cout << "step[1] = " << ing. step[1] << end1; 
cout << "step[0] = " << img. step[0] << end1; 


cout << "1n ------ stepl 的 大 小 ------ " << endl; 
cout << "step(2) =" << img. step1(2) << endl; 
cout << "step(1) =" << img. step1(1) << endl; 
cout << "step(0) =" << img. step1(0) << endl; 


waitKey(0); // 按 任意 键 退出 
return 0; 


} 

程序 运行 结果 如 图 3-5 和 图 3-6 所 示 。 

以 上 程序 需 特别 注意 一 点 : 图 像 是 二 维 的 ,因此 size[2]、step[2] 和 stepl1[2] 会 出 现 乱 
码 , 这 三 项 没有 参考 价值 。 
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83 EAVisioStudio2012_code\HelloWorid4\Debug\. [= MES 


E) image Le = MESE 


-stepi f 
p1C2)=3435973836 


图 3-5 imshow 函数 显示 图 像 图 3-6 使 用 imshow 得 到 图 像 参数 


3.1.4 imwrite 函数 
imwrite() 函数 通常 用 于 存储 处 理 后 的 图 像 ,函数 声明 如 下 : 


bool cv:: imwrite(const std:: string &filename, cv::InputArray img, const std::vector < int, 
std: :allocator < int >> &params = std::vector< int >()) 

3. X ff: highgui. hpp, 命 名 空间 : cv 

(1) const std: :string &filename。 

filename 是 const string& 类 型 的 ,表示 文件 名 及 存储 格式 。 

(2) cv::InputArray img。 

img 是 准备 被 保存 起 来 图 像 的 Mat 类 参数 。 

(3) const std: :vector< int, std: :allocator< int 
params 是 const vector < int > 类 型 的 参数 ,表示 特定 格式 残存 的 参数 编码 。 其 默认 值 


为 vector < int >() 。 
3.2 反 向 算法 


1. 反 向 算法 的 原理 

反 向 算法 是 图 像 处 理 中 最 简单 的 算法 之 一 ,适合 用 于 环境 搭建 测试 , 反 向 算法 即将 图 像 
中 所 有 的 像素 点 的 色彩 度 反 色 ,算法 原理 如 下 面 公 式 所 示 : 
f(x) = 255 — g(x) (3-1) 
因 书 中 图 是 黑白 图 ,很 难看 到 颜色 变化 ,如 图 3-7 所 示 为 预期 的 效果 图 。 


& params 一 std: : vector < int >O. 
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图 3-7 反 向 算法 示意 图 
2. 反 向 算法 实现 


# include < opencv2/opencv. hpp> 

# include < opencv2/core/core. hpp> 

# include < opencv2/imgproc/imgproc. hpp> 
# include < opencv2/highgui/highgui. hpp> 
# include < iostream> 


using namespace cv; 
using namespace std; 


int main(int argc, char * * argv) 
f 

IplImage * srcImg = cvLoadImage("lena512.png",1); 
// 读 入 图 像 lena512. png 


//------ 一 -一 计时 函数 :开始 计时 段 ---------------------------- 
double timeSpent = (double)getTickCount(); 


int nHeight, nWidth, nChannels, nWidthStep; 


nHeight = srcImg - > height; // 使 用 Opencv 提取 图 像 高 度 
nidth = srcImg — > width; // 使 用 Opencv 提取 图 像 宽度 
nChannels = srcImg — > nChannels; // 使 用 opencv 提取 图 像 通道 数 
nWidthStep = srcImg — > widthStep; // 使 用 opencv 截取 一 行 像素 点 宽度 
dj e———À—————————À——À— Nu X NM --—— —-------------—-------- 


uchar * data = (uchar * )srcImg - > imageData; 
// 三 通道 彩色 图 像 ,使 用 两 套 循 环 遍历 所 有 像素 点 实现 反 向 
for(jjj= 0;jjj<nHeight;jjj++) 
{ 
for(iii= 0;iii« nWidth * nChannels;iii++) 
t 
data[ jjj * nWidthStep + iii] = 255 — srcImg 一 > imageData[ jjj * nWidthStep + iii]; 
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timeSpent = ((double)getTickCount() — timeSpent)/getTickFrequency(); 
cout ««"Time spent in milliseconds: "<< timeSpent * 1000 << endl; 


// 在 屏幕 上 输出 使 用 的 时 间 
cvShowImage(" 反 向 图 像 ", srcImg); // 显 示 图 像 
cout <<" Channels "<< nChannels «« endl; // 显 示 图 像 通道 数 
waitKey(0); // 循 环 等 待 退出 
return 0; 

) 


3. 程序 运行 结果 
程序 运行 结果 如 图 3-8 和 图 3-9 所 示 , 左 图 为 原始 图 像 , 右 侧 为 处 理 后 的 图 像 。 


图 3-9 反 向 算法 的 结果 2 


4. 程序 简 析 

反 向 算法 相对 浅显 ,相信 读者 根据 程序 中 的 备注 ,可 以 看 懂 该 算法 。 因 此 比较 容易 理解 
以 反 向 算法 为 例 介 绍 OpenCV 编程 时 会 涉及 的 常识 以 及 需要 注意 的 细节 。 

1) 包含 头 文件 部 分 

编写 OpenCV 程序 时 ,经 常会 使 用 名 为 opencv. hpp 的 头 文件 ,该 头 文件 中 有 如 下 定义 吕 


# inlude < opencv2/opencv. hpp > 
f ifndef  OPENCV ALL HPP - 
f define  OPENCV ALL HPP - 


# include "opencv2/core/core c.h" 

# include "opencv2/core/core. hpp" 

# include "opencv2/flann/miniflann. hpp" 

# include "opencv2/imgproc/imgproc c.h" 

# include "opencv2/imgproc/imgproc. hpp" 

# include "opencv2/photo/photo. hpp" 

# include "opencv2/video/video. hpp" 

# include "opencv2/features2d/features2d. hpp" 
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# include "opencv2/objdetect/objdetect. hpp" 

# include "opencv2/calib3d/calib3d. hpp" 

# include "opencv2/ml/ml. hpp" 

# include "opencv2/highgui/highgui c.h" 

# include "opencv2/contrib/contrib. hpp" 

# endif 

通过 以 上 定义 可 以 知道 ,opencv. hpp 头 文件 包含 了 绝 大 多 数 常 见 的 OpenCV 头 文件 。 
因此 ,编程 时 仅 写 #inlude < opencv2/opencv. hpp >, 在 实现 功能 的 同时 ,也 可 以 实现 程序 的 
精简 化 。 

2) 头 文件 命名 部 分 


using namespace cv; 

using namespace std; 

这 两 行程 序 说 的 是 文件 的 命名 空间 在 cv 之 内 ,通常 对 文件 进行 命名 有 两 种 方法 : 

第 一 种 方法 如 前 面 程序 所 写 ,程序 最 开头 ,包含 头 文件 的 部 分 直接 添加 上 using namespace 
cv, 这 样 后 续 所 有 的 类 均 在 cv 之 内 。 

第 二 种 方法 是 在 程序 开头 部 分 不 加 cv 声明 ,但 后 面 每 一 个 cv 类 或 函数 ,都 要 以 “cv: :” 
这 种 方式 命名 ,这 种 命名 方式 虽然 正确 但 是 过 于 烦琐 , 且 易 出 错 , 因 此 不 推荐 。 

。 主 函数 部 分 : main O 函数 的 写法 。 

例 程 中 的 main RARS C 语言 和 C++ 语言 的 main() 函 数 命名 稍 有 不 同 ,这 里 写法 为 : 


int main(int argc, char * * argv) 


其 中 arg 指 的 是 参数 ,argc 为 整数 ,用 来 统计 运行 程序 时 送 给 main() 函数 的 命令 行 参数 的 
个 数 。argv 同上 会 加 上 * 和 [ ] ,成 为 * argv[ ], 表 示 字 符 串 数组 ,用 来 存放 指向 字符 串 参 
数 的 指针 数组 ,每 一 个 元 素 指向 一 个 参数 。 

main() 函 数 在 使 用 过 程 中 ,不 论 写 不 写 上 arge 和 argv 都 是 正确 的 ,因此 main() 函 数 通 
常 有 如 下 两 种 写法 : 

(D int main(int argc, char * * argv) { } 

(Q void main) ( ) 

* 图 像 的 读 入 : IplImage * srcImg = cvLoadImage("1ena512.png",1), 

示例 采用 opencv 1 系列 中 图 像 读 入 的 方法 .IplImage 函数 使 用 了 C 语言 作为 接口 进行 
BEA, fE OpenCV 2. 4. X 系列 和 之 后 的 版 本 中 ,基本 已 经 舍弃 了 这 种 读 入 方式 ,取而代之 
的 是 用 Mat 类 进行 读 人 。 但 本 算法 需要 使 用 指针 ,所 以 没有 把 图 像 变 成 Mat 28 , 

这 两 种 读 人 方式 用 法 如 下 : 

IplImage * srcImg = cvLoadImage("lena512.png",1); 

Mat srcImg = imread("lena512.png",1); 

前 者 为 C 接口 的 指针 型 ,后 者 为 C++ 接口 的 Mat 类 。 

O 读 人 方式 。 

以 上 两 种 读 和 人 方式 都 支持 的 图 像 格式 有 : 


Windows 位 图 : .bmp、. dib 
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JPEG 文 件 :. jpeg、. jpg、. jpe 
JPEG2000 文件 : . jp2 

PNG 文件 : .png 

便携 文件 : . pbm、.pgm、.ppm 

Sun rasters 光栅 文件 : . sr、. ras 
TIFF 文件 : .tiff、.tif 


© 载 人 标识 flags, 
载 人 标识 指 在 图 像 读 人 过 程 中 对 有 颜色 图 像 加 载 的 颜色 类 型 ,flags 不 同 对 应 读 人 计算 


机 中 的 图 像 颜色 也 会 有 区 别 , 通 常 不 输入 flags 时 ,其 默认 值 为 1。 与 前 面 介绍 的 Mat 类 的 
flags 标识 含义 完全 相同 。 


。 计时 函数 : getTickCount() 。 
计时 开始 函数 : 


double timeSpent = (double)getTickCount(); 
计时 终止 函数 : 
timeSpent = ((double)getTickCount() — timeSpent)/getTickFrequency(); 


getTickCount 因数 的 作用 是 返回 (retrieve) 从 操作 系统 启动 所 经 过 (elapsed) 的 毫秒 数 


(ns) , 它 的 返回 值 是 DWORD。 


使 用 方法 如 上 所 述 , 只 要 设 定好 一 个 变量 ,按照 上 面 的 格式 去 写 就 可 以 测试 这 两 个 变量 


中 间 的 程序 运行 所 消耗 的 时 间 中 。 


° 提取 图 像 信息 。 


nHeight = srcImg 一 > height; 
nWidth = srcImg 一 > width; 
nChannels = SrcImg 一 > nChannels; 
nWidthStep = SrcImg 一 > widthStep; 


本 算法 使 用 IplImage 读 取 图 像 的 信息 ,其 中 nHeight、nWidth、nChannels、nWidthStep 


分 别 指 存储 图 像 的 高 度 height、 图 像 的 宽度 width、 图 像 的 通道 数 nChannels 和 每 一 行 像素 
点 存储 所 需要 的 字 节 数 nWidthStep, 如 图 3-10 所 示 。 其 中 height, width, nChannels 和 
widthStep 是 OpenCV 自 带 的 函数 ,专门 用 来 进行 图 像 的 特征 提取 。 


channels=3 


nWidthStep=600 
vu 


width-200 
像素 点 


3-10 ”提取 图 像 信 息 的 变量 
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需要 注意 的 是 ,nWidthStep 指 存储 一 行 图 像 的 像素 点 所 需要 的 字 节 数 , 其 自身 必须 为 4 的 
倍数 ,以 便 实现 字 节 对 齐 , 这 种 方式 会 提高 运算 速度 。 一 般 情 况 下 nWidthStep— width X 
nChannels, 即 每 一 行 所 需要 的 字 节 数 等 于 每 一 行 像素 点 的 数量 乘 图 像 自身 的 通道 数 ,但 是 
如 果 图 像 自身 没有 令 nWidthStep 为 4 的 倍数 ,那么 这 个 计算 方式 就 不 成 立 , 需 要 使 用 空 字 
节 来 补 齐 。 

使 用 上 面 的 图 像 进行 说 明 : 

上 述 存储 在 计算 机 中 的 三 通道 的 彩色 图 ,其 数据 存储 效果 如 图 3-11 所 示 , 以 B`G、R 的 
形式 进行 存储 。 像 素 点 width 一 200, 通 道 数 nChannels 王 3, 所 以 刚好 可 以 实现 nWidthStep = 
600 是 4 的 倍数 。 


z 


I—— Width=200 Width=200 | Width=200 — 


nWidthStep-600 


图 3-11 计算 机 中 存储 三 通道 图 像 


假设 一 行 像素 点 为 199 个 , 即 width 一 199,nChannels 王 3, 理 论 上 存储 在 计算 机 中 的 
nWidthStep 应 该 是 199X3 二 597, 但 是 在 实际 应 用 的 过 程 中 nWidthStep 的 值 会 是 600, 因 
为 597 不 是 4 的 倍数 ,遵照 向 上 对 齐 的 原则 使 读 入 的 图 像 后 边 添加 了 三 个 空 的 字符 ,这 三 个 
字符 仅仅 是 用 来 实现 字符 对 齐 的 ,没有 其 他 任何 作用 ,如 图 3-12 所 示 。 


这 里 补充 了 三 个 空 字 节 


B G 


"ee 
[—— Widh=199  ——1—— Width-199 一 | Width=199 


nWidthStep=600 | 


图 3-12 计算 机 中 nWidthStep 存储 补足 
这 个 对 齐 的 模式 可 能 会 对 一 些 特殊 的 图 像 处 理 算法 造成 影响 ,例如 NLM 算 法 在 外 围 搜 
索 的 过 程 中 会 搜索 到 边缘 没有 意义 的 像素 点 。 所 以 建议 在 处 理 图 像 时 尽量 选择 标准 大 小 的 图 
像 , 如 像素 点 为 64X64、128XX128、256X256…… 或 者 图 像 的 一 行 像素 点 为 4 的 倍数 也 可 以 。 
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。 算 法 部 分 : 


for(jjj= 0;jjj<nHeight;jjj++) 

{ 
for(iii= 0;iii<nWidth* nChannels; iii++) 
{ 

data[jjj * nWidthStep + iii] = 255 — srcImg- > imageData[ jjj * nWidthStep + iii]; 
t 

) 


程序 使 用 了 两 套 循环 来 实现 图 像 的 遍历 。 图 3-13 为 三 通道 彩色 图 像 存 人 计算 机 中 显 
示 效 果 图 ,OpenCV 和 MATLAB 显示 的 部 分 都 一 样 , 都 是 三 通道 三 个 矩阵 的 形式 进行 显 
示 , 图 下 方 的 方 框 示意 为 图 像 中 像素 点 的 具体 数值 。 
B G R 


G 


12 | 67 | 78 | 67 32 76 | 56 97 53 | 99 | 100 | 49 


51 | 77 | 87 | 57 46 | 52 


144 | 86 57 | 77 | 56 | 42 


52.76 | 7 | 591 12 | 26 


89 | 12 54 | 77 | 90 | 45 


125| 87 | 76 | 12 66 so | si 44 166 | 97 | 209 | 72 


图 3-13 计算 机 中 存储 三 通道 图 像 示 意图 


在 计算 机 存储 的 过 程 中 ,OpenCV 和 MATLAB 的 存储 方式 有 一 些 区 别 ,MATLAB 会 
将 单 通 道 灰 度 图 像 存 成 二 维 平 面 矩阵 ,将 三 通道 或 者 多 通道 彩色 图 像 存 成 三 维 空间 矩阵 , 例 
如 现在 想 取 Green 层 第 二 行 第 二 列 的 像素 点 46, MATLAB 就 可 以 写成 : 

A= Data[ 1,1,1] 

* A 为 变量 ,Data 为 图 像 

#% 第 一 个 1 是 指 第 二 行 ,第 二 个 1 指 第 二 列 ,第 三 个 1 为 第 二 层 Green 层 

OpenCV 的 存储 方式 是 将 所 有 的 BGR 三 色 像 素 点 以 一 个 一 维 数组 的 方式 进行 存储 的 ， 
如 图 3-14 所 示 , 第 一 行 存储 完成 之 后 直接 存储 第 二 行 ,这 也 就 是 为 什么 OpenC V 要 用 到 
nWidthStep 函数 。 如 果 图 像 width 不 是 4 的 倍数 ,导致 nWidthStep 需要 补充 时 ,补充 的 空 
白字 节 也 将 以 这 种 方式 存在 这 个 一 维 数组 中 。 

T fit OpenCV 的 存储 方式 后 ,之 前 的 遍历 算法 也 就 清楚 了 : 

讶 ( 行 )XnWidthStep( 每 一 行 所 需 的 字 节 数 ) 十 证 ( 列 ) 王 像素 点 位 置 

。 图 像 显示 : cvShowImage(" 反 向 图 像 " .srcImg)。 

图 形 显 示 也 有 两 种 方式 : 一 种 是 例子 中 使 用 的 cvShowImage O 函数 ,这 个 函数 可 以 将 
指针 形式 存储 的 图 像 无 损 地 显示 出 来 。 第 一 个 参数 是 “窗口 名 称 ”, 用 双 引 号 (一 定 注意 是 英 
文 输入 法 下 的 双 引 号 ) 将 名 称 包括 在 中 间 即 可 ; 第 二 个 参数 是 图 像 的 指针 名 称 。 
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Data-[12,67.78,67.32,76,56.97,53.99.100,49,51,77.87.57.46....] 
图 3-14. OpenCV 存储 像素 点 的 模式 


第 二 种 输出 函数 较为 常用 : imshow() 函 数 。 
imshow() 函 数 可 以 输出 Mat 类 读 和 的 图 像 ,使 用 起 来 也 更 方便 ,因此 这 种 方式 更 为 常 
用 ,使 用 方式 如 下 : 


imshow(" 图 像 显示 "， image); 

第 一 个 参数 是 在 双 引 号 内 写 出 图 像 显 示 窗 口 的 名 称 , 后 一 个 参数 是 用 来 存储 图 像 的 
Mat 类 变量 。 

5. 附加 

为 了 对 比 OpenCV 函数 和 MATLAB 函数 的 区 别 ,这 里 使 用 MATLAB 进行 一 次 反 向 
算法 编写 ,程序 如 下 : 


clear all 
f = imread( 'PeaShooter. png') ; * FE EA. 
tic % MATLAB 的 计时 函数 
[M, N, Z] = size(f); 5 [68 T6 HE .宽度 .通道 数 测量 
g = ones(M, N, Z); 名 建立 一 个 全 是 1 的 矩阵 
fori= 1:M 开始 进行 像素 点 遍历 
forj-1:N 
for k=1:2 
g(i,j,k) = 255 - f(ij,k); 名 实现 反 向 
end 
end 
end 
g= uint8(g); 名 将 浮 点 型 数据 转化 为 整 型 
figure; % imi pg 
subplot(121); 5 在 图 中 左 侧 放 上 原 图 像 , 右 侧 放 上 反 向 后 的 图 像 
imshow(£,[]); 
subplot(122); 
inshow(g,[]); 
toc 


为 了 方便 对 比 , 这 次 实现 仍 使 用 了 与 之 前 一 样 的 图 像 ,处 理 的 结果 如 图 3-15 所 示 ,与 使 
用 OpenCV 的 处 理 结果 一 模 一 样 ,但 是 处 理 的 时 间 却 远 超过 OpenCV. 


图 3-15 MATLAB 实现 反 向 算法 
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3.3 图 像 融合 


图 像 融 合 是 图 像 处 理 中 比较 常用 的 一 种 处 理 手段 ,将 两 个 或 多 个 图 像 以 一 定 的 方式 融 
合成 一 个 图 像 。 如 图 3-16 所 示 , 左 侧 为 静物 的 左 聚 焦 图 像 ,图 中 间 为 静物 的 右 聚 焦 图 像 ,图 
右 侧 为 两 个 图 像 中 清晰 部 分 融合 起 来 的 图 像 。 


图 3-16 图 像 融合 示例 


本 节 将 使 用 OpenCV 自 带 函数 实现 简单 的 图 像 融合 或 者 叫 图 像 混合 ,通过 这 些 例 程 可 
以 加 深 对 OpenCV 函数 的 理解 。 


3.3.1 帮 盖 型 图 像 融 合 


这 种 图 像 融合 是 将 一 个 图 像 以 马赛 克 的 形式 盖 在 另外 一 个 图 像 的 某 个 部 位 上 。 
(1) 程序 如 下 : 


# include < opencv2/opencv. hpp> 

# include < opencv2/core/core. hpp> 

# include < opencv2/highgui/highgui. hpp> 
using namespace cv; 

using namespace std; 


int main() 
í 
Mat srcImagel = imread("1.jpg"); // 读 取 图 像 1 作为 背景 
Mat srcImage2 = imread("2. jpg") ; // 读 取 图 像 2 作为 覆盖 面 
Mat imageROI = srcImagel(Rect(100,100, srcImage2. cols, srcImage2. rows)) ; 
//ROI 部 分 
Mat mask = imread("2. jpg", 0); // 读 入 图 像 
srcImage2. copyTo( imageROI, mask) ; // 图 像 覆盖 
namedWindow( "E RRA"); // 给 窗口 命名 
inshow(" E] & Ri & " , srcImagel); // 图 像 输 出 
waitKey(); 
return 0; 


) 

(2) 实验 结果 。 

相信 通过 程序 备注 ,读者 可 以 理解 程序 的 含义 ,程序 运行 的 结果 如 图 3-17 一 图 3-19 所 
示 , 图 3-17 为 图 像 的 背景 ,图 3-18 为 背景 上 添加 的 图 像 , 图 3-19 为 完成 示意 图 。 
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图 3-17 


zx 
m 


图 3-18 背景 上 的 图 像 
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图 3-19 两 幅 图 像 融 合 后 的 结果 


(3) 注意 事项 和 程序 简 析 

ROI(Region Of Interest) 指 图 像 中 感 兴趣 的 部 分 ,其 实 就 是 找到 图 像 中 想 要 进行 图 像 
处 理 的 部 分 ,通常 使 用 Rect 函数 和 Range 函数 ,其 中 Rect 函数 更 为 常用 ,Rect 函数 的 使 用 
方法 如 下 : 


X= A(Rect(B,C,D,E)); 
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X Jé— ` Mat 类 的 变量 ,用 来 存放 图 像 中 的 ROT; 
A 是 原 图 像 ; — i 
B.C 用 来 确定 ROI 左 上 角 点 的 坐标 ,其 中 B 是 c 
原 图 像 A 中 的 第 多 少 列 ,C 是 原 图 像 A 中 的 第 多 B—- 


mih X-ROI D 
D fil E Æ ROI 的 高 度 和 宽度 ,D 是 从 B.C 确定 

的 原点 位 置 ,向 下 D 个 像素 点 ,作为 ROI 的 高 度 ; E — e~ 

是 从 B.C 确定 的 原点 位 置 ,向 右 下 个 像素 点 ,作为 

ROI 的 宽度 。 如 图 3-20 所 示 。 图 3-20 ROI 示 意图 
例如 ,在 上 述 的 程序 中 : 


Mat imageROI = srcImagel (Rect(100, 100, srcImage2. cols, srcImage2.rows)); 


imageROI 是 原 图 像 的 ROT 部 分 ; 
srcImagel 是 原 图 像 ; 
100,100 是 ROI 左上 角 的 原点 坐标 。 

srcImage2. cols 和 srcImage2. rows 是 从 srcImage2 图 像 中 获取 的 该 图 像 的 高 度 和 宽 
度 ,其 中 . cols 是 图 像 的 高 度 而 . rows 是 图 像 的 宽度 。 需 要 注意 的 是 ,ROI 要 和 掩 膜 (mask) 
的 大 小 一 致 。 


3.3.2 线性 图 像 混 合 


线性 图 像 混 合 是 将 图 像 中 的 像素 点 进行 倒 加 ,应 用 的 是 addweight O PR IC. CZ X 
如 下 : 
gr) = (1 —a)fi Gae) + af, (z) (3-2) 
将 两 幅 像 素 点 相同 .尺寸 相同 的 图 像 , 根 据 权重 全 加 起 来 即 为 线性 图 像 混合 ,通过 这 种 
权重 登 加 ,不 会 出 现 像素 值 超出 255 的 情况 。 
(OD 程序 如 下 : 
# include < opencv2/opencv. hpp> 


# include < opencv2/highgui/highgui. hpp> 
using namespace cv; 


void main() 


{ 


double a = 0.6; // 预 设 值 
double b=1-a; 
Mat srcImagel, srclmage2, dstImage; 


srclmagel- imread("1. jpg"); // 读 取 图 像 1 
srcImage2 = imread("2.jpg"); // 读 取 图 像 2 
namedWindow(" 原 图 像 1") ; // 显 示 图 像 1 


imshow(" 原 图 像 1"，srcImagel ); 
namedWindow(" 原 图 像 2") ; // 显 示 图 像 2 
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imshow(" 原 图 像 2"，srcImage2 ); 


addWeighted(srcImagel, a, srcImage2, b, 0, dstImage); 
// 混 合 图 像 1 和 图 像 2 并 存 于 dstImage 中 


namedWindow( "线性 混合 结果 "); // 输 出 混合 图 像 dstImage 
imshow(" 线 性 混合 结果 "，dstImage ); 
waitKey(); 

) 

(2) 处 理 结果 。 


图 3-21 和 图 3-22 为 需要 混合 的 两 幅 图 像 , 图 3-23 为 二 者 线性 混合 后 的 图 像 。 


图 3-21 线性 混合 图 像 原 图 1 图 3-22 


线性 混合 图 像 原 图 2 


图 3-23 ”线性 混合 结果 图 


(3) 程序 简 析 。 
本 程序 主要 使 用 了 add Weight O RX RAUS B] ADF : 


void addWeighted(InputArray srcl, double alpha, InputArray src2, double beta, double gamma, 
OutputArray dst, int dtype- — 1); 


* srcl 


第 一 个 参数 是 InputArray 类 型 的 srcl ,存放 第 一 个 图 像 , 即 要 用 来 加 权 的 第 一 个 数组 。 
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* alpha 

第 二 个 参数 是 double 类 型 的 alpha, 存 放 第 一 个 加 权 数 组 的 权重 。 

* src2 

第 三 个 参数 是 InputArray 类 型 的 src2 ,存放 第 二 个 图 像 , 即 要 用 来 加 权 的 第 二 个 数组 。 

* beta 

第 四 个 参数 是 double 类 型 的 beta, 存 放 第 二 个 加 权 数 组 的 权重 。 

* gamma 

第 五 个 参数 是 double 类 型 的 gamma, 存 放 另 外 一 个 加 权 到 该 权重 上 的 标量 值 ,可 以 用 
来 调整 图 像 整 体 的 颜色 深度 等 。 

* dst 

第 六 个 参数 是 OutputArray 类 型 的 dst, 存 放 即 将 输出 的 数组 , 即 作为 输出 的 图 像 ,该 
图 像 与 原 图 像 的 大 小 和 属性 必须 相同 。 经 过 addWeighted() 函 数 的 处 理 ,输出 的 dst 像素 点 
的 公式 如 下 : 

dst 一 srcl Xalpha+src2 X beta+ gamma 

* dtype 

第 七 个 参数 是 int 类 型 的 dtype, 存 放 输出 数组 dst 的 深度 ,其 默认 值 为 一 1, 表 示 与 原本 
的 输入 数组 srcl 和 src2 相同 的 图 像 深度 。 

(4) 注意 事项 。 

addweight() 函 数 仅仅 适用 于 三 通道 和 单 通道 的 图 像 ,如 果 是 16 位 四 通道 或 者 是 32 位 
五 通道 的 图 像 就 不 能 使 用 这 种 方式 去 实现 。 


3.3.3 动画 效果 的 线性 混合 


图 像 处 理 偶尔 会 出 现 需 要 图 像 动态 显示 的 过 程 .本 节 仍 然 使 用 前 面 的 线性 混合 函数 
addWeighted() ,并 给 出 一 个 如 何 做 简单 动态 效果 的 例 程 一 一 将 彩色 图 像 浙 变 成 灰 度 图 像 。 
(OD 程序 如 下 : 


# include"stdafx. h" 

# include < opencv2/core/core. hpp > 

# include < opencv2/ imgproc/imgproc.hpp^ 
# include < opencv2/highgui/highgui.hpp» 
# include < iostream> 


using namespace cv; 
using namespace std; 


int main(int argc, char * * argv) 

{ 
Mat srcImg = imread("Jayce. jpg"); 
namedWindow(" 原 图 像 "); 
imshow(" 原 图 像 "，srcImg); 


7 BERI LEN -n */ 
double timeSpent = (double)getTickCount(); 
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Mat tmpImgl; 
Mat tmpImg2; 


cvtColor(srcImg,tmpImgl,CV RGB2GRAY); 


// 将 彩色 的 原 图 像 srcImg 转换 成 单 通 道 的 灰 度 图 像 , 并 存储 在 tmpImgl 中 


cvtColor(tmpImgl, tmpImg2, CV GRAY2RGB); 


// 将 单 通道 的 灰 度 图 像 tmpImgl 转换 成 三 通道 的 彩色 图 像 ,并 存储 在 tmpImg2 中 


Mat dstIng; // 定 义 输出 图 像 
double a; // 定 义 权重 
for(int i=0; i«100; i++) 
{ 

a = (double)i/100. 0; 

addWeighted( srcImg, 1 — a, tmpImg2, a, 0, dstImg) ; 


//addWeighted(srcImg,a,tmp3Img,1— a,0,dstImg); ”// 反 过 来 的 灰 度 变 彩色 的 过 程 
namedWindow( "渐变 图 像 "); 

imshow( "渐变 图 像 ", dstImg); 

waitKey(20); // 控 制 渐变 速度 


--------------------------- HIRMAN r 
timeSpent = ((double)getTickCount() — timeSpent)/getTickFrequency(); 
cout ««"Time spent in nilliseconds: "«« timeSpent * 1000 «« endl; 


waitKey(0); 
return 0; 


(2) 运行 结果 。 
如 图 3-24 所 示 为 原始 图 像 , 之 后 会 随 着 时 间 渐 渐变 为 如 图 3-25 所 示 的 图 像 , 最 后 渐变 
为 如 图 3-26 所 示 的 灰 度 图 像 。 


图 3-24 原始 图 像 
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图 3-25 渐变 图 像 


图 3-26” 变 成 灰 度 图 像 


(3) 程序 简 析 。 

程序 首先 将 一 个 三 通道 的 彩色 图 像 转 变 成 三 通道 灰 度 图 像 , 之 后 使 用 for 循环 ,使 两 者 
不 断 地 以 不 同 的 权重 进行 混合 ,并 由 新 图 像 不 断 地 覆盖 旧 图 像 , 从 而 实现 动态 显示 的 过 程 ， 
如 图 3-27 所 示 。 


权重 : 10. 0.9. 0.8. 0.7.0.1. 0.0 


Tee n 
灰 度 图 mood 


权重 : 0.0. 0.1. 0.2. 0.3..0.9. 1.0 
图 3-27 图 像 渐变 原理 图 


头 文件 .计时 函数 .图像 的 读 入 输出 部 分 不 再 重复 ,需要 注意 的 是 ,使 用 namedWindow() 
函数 可 以 实现 图 像 的 不 断 更 新 ,如 果 直 接 使 用 imshow() 函 数 则 无 法 这 样 显示 。 
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2 H----------------------- 


另外 介绍 一 个 图 像 变换 函数 cvtColor() ,该 函数 声明 如 下 : 
cvtColor(InputArray src, OutputArray dst, int code, int dstCn- 0); 


"ope 

第 一 个 参数 src 是 InputArray 类 型 的 变量 ,是 输入 进来 的 要 改变 彩色 空间 的 原始 图 像 。 

* dst 

第 二 个 参数 dst 是 OutputArrary 类 型 的 变量 ,是 将 原 图 像 做 完 彩色 空间 的 转换 之 后 ， 
作为 输出 的 图 像 。 

* code 

第 三 个 参数 code 是 int 类 型 的 变量 , 写 和 人 的 是 要 转变 的 类 型 ,例如 程序 中 的 第 一 个 
code 为 CV_RGB2GRA Y 代表 将 三 通道 RGB 图 像 转换 成 单 通道 的 灰 度 图 像 。 程 序 中 的 第 
二 个 code 为 CV_GRAY2RGB. 是 将 单 通道 的 灰 度 图 像 转 换 为 三 通道 的 RGB 图 像 。 

实现 混合 需要 先 得 到 一 个 三 通道 的 灰 度 图 像 ,才能 和 原 图 像 进行 线性 混合 , 单 通道 的 灰 
度 图 像 不 可 以 实现 。 但 是 空间 转换 中 没有 可 以 将 三 通道 图 像 直 接 转换 为 三 通道 灰 度 图 像 的 
方法 ,所 以 采用 的 方案 是 先 将 三 通道 转换 为 单 通 道 灰 度 ,因为 已 经 是 灰 度 图 ,所 以 再 次 转换 
到 三 通道 彩色 图 像 时 仍然 不 会 带 有 任何 颜色 ,通过 这 样 的 处 理 方式 ,就 可 以 实现 使 用 
addWeighted O PR Zi JE £7 2X PE TR 4 。 

空间 转换 命名 的 方式 都 比较 简单 ,如 刚刚 说 到 的 CV_RGB2GRAY, 就 是 将 前 半 段 的 
RGB 图 像 转换 成 后 半 段 中 的 GRAY 图 像 ,其 他 类 型 的 命名 也 是 同样 道理 。 

这 里 将 常用 到 颜色 的 空间 转换 总 结 如 下 : 


RGB < - - > BGR: 
CV BGR2BGRA,CV RGB2BGRA,CV BGRA2RGBA,CV BGR2BGRA,CV BGRA2BGR; 
RGB <-- > 5X5: 


CV BGR5652RGBA,CV BGR2RGB555; 

RGB < --- > Gray: 

CV RGB2GRAY,CV GRAY2RGB,CV RGBA2GRAY,CV GRAY2RGBA; 

RGB < -- > CIE XYZ: 

CV BGR2XYZ,CV RGB2XYZ,.CV XYZ2BGR.CV XYZ2RGB; 

RGB < -- > YCrCb(YUV) JPEG: 

CV RGB2YCrCb,CV RGB2YCrCb,CV YCrCb2BGR,CV YCrCb2RGB,CV RGB2YUV; 
RGB < -- > HSV: 

CV BGR2HSV,CV RGB2HSV,.CV HSV2BGR.CV HSV2RGB; 

RGB < -- > HLS: 

CV BGR2HLS,CV RGB2HLS,CV HLS2BGR,CV HLS2RGB; 
RGB«--»2CIEL*a*b*: 

CV BGR2Lab,CV RGB2Lab,CV Lab2BGR,CV Lab2RGB; 

RGB <--> CIE L* u*v: 
CV_BGR2Luv,CV_RGB2Luv,CV_Luv2BGR,CV_Luv2RGB; 

RGB < -- > Bayer: 
CV_BayerBG2BGR,CV_BayerGB2BGR,CV_BayerRG2BGR,CV_BayerGR2BGR,CV_BayerBG2RGB,CV_BayerGB2RGB; 
YUV420 < -- > RGB: 

CV YUVA20sp2BGR,CV YUVA20sp2RGB,CV YUV420i2BGR,CV YUVA420i2RGB; 
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* dstCn 
第 四 个 参数 dstCn 是 inc 型 变量 ,如 果 不 填 则 默认 为 0, 它 是 输出 图 像 的 通道 数 , 若 
dstCn 一 0, 则 表示 与 原 图 像 的 通道 数 保持 一 致 。 


3.4 ”图像 去 品 


图 像 信号 在 获取 ,传输 和 存储 过 程 中 ,不 可 避免 地 会 受到 噪声 的 干扰 ,噪声 降低 了 图 像 
的 质量 ,淹没 了 图 像 的 边缘 和 细节 特征 ,给 图 像 分 析 和 后 续 处 理 带 来 困难 ,图 像 噪声 的 消除 
是 图 像 处 理 中 的 一 个 重要 研究 内 容 , 能 否 有 效 地 滤 除 噪声 直接 影响 着 图 像 后 续 工 作 的 进行 ， 
因此 图 像 去 噪 工作 尤为 重要 中 。 本 节 将 主要 介绍 OpenCV 自 带 的 均值 滤波 、 高 斯 滤波 、 方 
框 滤波 这 三 种 常用 的 去 噪 算法 ,并 介绍 一 种 去 噪 效果 更 好 的 非 局 部 均值 滤波 。 


3.4.1 均值 滤波 


1. 均值 滤波 算法 的 原理 

均值 滤波 也 称 为 线性 滤波 ,其 采用 的 主要 方法 为 邻 域 平均 法 。 线 性 滤波 的 基本 原理 是 
用 均值 代 蔡 原 图 像 中 的 各 个 像素 值 , 即 为 待 处 理 的 当前 像素 点 (z,y) 选 择 一 个 模板 ,该 模板 
由 其 邻近 的 若干 像素 组 成 , 求 模板 中 所 有 像素 的 均值 ,再 把 该 均值 赋予 当前 像素 点 (z,y)， 


作为 处 理 后 图 像 在 该 点 上 的 灰 度 值 gCz,y) BB 
MfG.» 
m 


gir.y)-— (3-3) 


式 子 中 的 m 为 该 模板 中 包含 当前 像素 在 内 的 像素 总 个 数 。 

均值 滤波 能 够 有 效 滤 除 图 像 中 的 加 性 噪声 ,但 均值 滤波 本 身 存 在 着 固有 的 缺陷 , 即 它 不 
能 很 好 地 保护 图 像 细 节 , 在 图 像 去 噪 的 同时 也 破坏 了 图 像 的 细节 部 分 ,从 而 使 图 像 变 得 
TUM. 

2. 均值 滤波 的 算法 实现 


# include < opencv2/opencv. hpp > 

# include < opencv2/core/core. hpp > 

# include < opencv2/highgui/highgui. hpp> 
usingnamespace cv; 

usingnamespace std; 


int main() 
{ 
Mat image = imread("1. jpg"); 


namedWindow( "XË JE B] " ) ; 
namedWindow( "滤波 后 "); 
imshow(" 滤 波 前 ", image) ; 


Mat out; 
blur(image, out, Size(5,5)); // 均 值 滤波 
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va WR E INT ku kika w 
imshow(" 滤 波 后 ", out); 


waitKey(); 
return 0; 
) 
3. 程序 运行 结果 
图 3-28 为 原 图 像 ,图 3-29 和 图 3-30 分 别 是 均值 滤波 内 核 为 3X3 和 5X5 的 滤波 后 的 
图 像 。 


图 3-28 用 于 均值 滤波 的 原始 图 像 图 3-29 内 核 为 3X3 的 均值 滤波 结果 


图 3-30 内核 为 5X5 的 均值 滤波 结果 


4. 程序 简 析 
上 述 程序 调用 了 OpenCV 内 自 带 的 均值 滤波 函数 blur() ,该 函数 声明 如 下 : 


C++: void blur(InputArray src, OutputArray dst, Size ksize, Point anchor = Point( - 1, — 1), int 
borderType = BORDER DEFAULT ) 


* src 
第 一 个 参数 src 是 InputArray 类 型 的 变量 ,用 于 存放 输入 图 像 ,使 用 Mat 类 的 对 象 即 
可 。 该 函数 对 通道 独立 处 理 , 且 可 以 处 理 任 意 通 道 数 的 图 片 。 
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* dst 

第 二 个 参数 dst 是 OutputArray 类 型 的 变量 , 即 目 标 图 像 ,需要 和 原 图 像 有 一 样 的 尺寸 
和 类 型 。 

* ksize 

第 三 个 参数 ksize 是 Size 类 型 的 变量 , 即 为 内 核 的 大 小 。 通 常 的 写法 是 Size(w,h) 表 示 
内 核 的 大 小 (w 为 像素 宽度 ,h 为 像素 高 度 ) 。Size(3,3) 就 表示 3X3 的 核 ; 同样 ,Size(5,5) 
就 表示 5X5 的 内 核 大 小 。 

* anchor 

第 四 个 参数 anchor 是 Point 类 型 的 变量 ,用 来 表示 锚 点 ( 即 被 平滑 的 像素 点 ) ,注意 其 
默认 值 为 Point( 一 1, 一 1)。 如 果 点 坐标 是 负 值 ,就 表示 取 核 的 中 心 为 锚 点 ,所 以 默认 值 
Point( 一 1, 一 1) 表 示 这 个 锚 点 在 方 框 核 的 中 心 。 通 常情 况 下 ,这 个 点 都 是 核 的 中 心 点 ,而 
anchor 这 个 参数 也 不 需要 填写 。 

* borderType 

第 五 个 参数 borderType 是 int 类 型 的 变量 ,用 于 推断 图 像 外 部 像素 的 某 种 边界 模式 。 
其 默认 值 为 BORDER_DEFAULT ,一 般 不 需要 去 填写 。 

5. 程序 优化 

在 图 像 处 理 尤其 是 图 像 去 噪 过 程 中 ,通常 更 改 取 值 参数 会 比较 麻烦 ,每 一 次 都 需要 更 改 
程序 中 的 参数 再 运行 查看 效果 。 因 此 ,可 以 通过 创建 一 个 轨迹 条 函数 来 解决 这 个 问题 ,本 节 
将 简单 说 明 如 何 使 用 轨迹 条 函数 来 方便 查看 均值 滤波 的 效果 。 

程序 如 下 : 

# include < opencv2/opencv. hpp> 

# include < opencv2/core/core. hpp> 

# include < opencv2/highgui/highgui. hpp> 

# include < opencv2/imgproc/imgproc. hpp> 

# include < iostream> 

using namespace cv; 

using namespace std; 


Mat srcImage, dstImage; // 定 义 全 局 变量 的 输入 和 输出 
int nBlur = 3; // 起 始 的 内 核 默认 值 


staticvoid MeanBlur(int, void * ); 


int main() 


{ 


srcImage = imread("1. jpg"); 

namedWindow(" JEt f Fd f$ " ) ; // 创 建 窗口 
imshow(" 原 始 图 像 ", srcImage); 

namedWindow( "均值 滤波 "); 

createTrackbar(" 内 核 值 ", "均值 滤波 ", &nBlur, 20, MeanBlur); // 创 建 轨迹 条 
MeanBlur(nBlur, 0) ; // 进 行 图 像 处 理 


waitKey(); 
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86 ----------------------- 


staticvoid MeanBlur(int, void * ) 

í 

blur(srcImage, dstImage, Size(nBlur + 1,nBlur+ 1)); // 防 止 窗口 为 0 崩溃 
imshow( "均值 滤波 ", dstImage); 

} 


6. 实验 结果 

图 3-31 为 输入 的 原 图 像 ; 图 3-32 是 内 核 大 小 为 1 X1 的 均值 滤波 后 图 像 , 即 在 不 滤波 
情况 下 的 输出 图 像 ; 图 3-33 是 内 核 大 小 为 3X3 的 均值 滤波 后 图 像 ,图 3-34 是 内 核 大 小 为 
10x 10 的 均值 滤波 后 图 像 。 


图 3-33 ”内 核 为 3X3 的 均值 滤波 结果 图 3-34 内核 为 10X 10 的 均值 滤波 结果 


7. 程序 简 析 
这 段 程序 还 是 将 图 像 进行 均值 滤波 ,唯一 的 区 别 在 于 增加 了 一 个 轨迹 条 函数 : 
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createTrackbar() 。 
createTrackbar() 声 明 如 下 : 


int createTrackbar(conststring& trackbarname, conststring& winname, int * value, int count, 
TrackbarCallbackonChange = 0, void * userdata = 0); 


* trackbarname 

第 一 个 参数 trackbarname 是 conststring&. 类 型 的 变量 ,表示 滑动 线条 部 分 的 名 称 。 

* winname 

第 二 个 参数 winname 是 conststring& 类 型 的 变量 ,表示 图 像 显示 过 程 中 的 名 称 。 如 果 
前 边 有 对 应 的 namedWindow 创建 的 图 像 窗 口 ,那么 这 个 名 称 就 会 在 相应 的 图 像 上 进行 
显示 。 

* value 

第 三 个 参数 value 是 int * 类 型 的 变量 ,表示 在 滑动 条 中 ,起 始 时 刻 滑 块 的 位 置 。 

* count 

第 四 个 参数 count 是 int 类 型 的 变量 ,表示 滑动 条 中 的 最 大 值 , 即 滑动 条 的 上 限 。 补 充 
一 点 ,在 使 用 轨迹 函数 时 ,最 小 的 滑动 条 位 置 是 0, 这 个 是 默认 存在 的 ,没有 办 法 修改 。 

本 程序 中 ,功能 函数 为 blur(srcImage, dstImage, Size(nBlur 十 1,nBlur 十 1)), 因 为 
count 的 值 最 小 可 以 取 值 到 0, 但 是 在 Size(a,b) 中 ,最 小 值 必须 大 于 0, 因 此 在 这 里 使 用 了 
十 1 的 方式 , 即 滑 块 的 位 置 十 1 即 为 内 核 的 大 小 。 

* onChange 

第 五 个 参数 onChange 是 TrackbarCallback 类 型 的 变量 ,其 自身 的 默认 值 为 0。 这 是 一 
个 指向 回调 函数 的 指针 ,每 次 滑 块 位 置 改变 时 ,这 个 函数 都 会 进行 回调 。 并 且 这 个 函数 的 原 
型 必须 为 void XXXX(int,void* )。 第 一 个 参数 是 轨迹 条 的 位 置 ,第 二 个 参数 是 用 户 数据 。 
如 果 回 调 是 NULL 指针 ,表示 没有 使 用 回调 函数 , 仅 第 三 个 参数 value 有 变化 。 

* userdata 

第 六 个 参数 userdata 是 void x 型 的 变量 ,其 自身 的 默认 值 为 0, 表示 用 户 传 给 回调 函数 
的 数据 ,用 来 处 理 轨迹 函数 。 通 常情 况 下 不 会 更 改 这 个 参数 ,而 是 直接 不 填写 这 个 参数 ,使 
用 其 默认 值 。 

3.4.2 高 斯 滤波 

1. 高 斯 滤波 算法 的 原理 

高 斯 滤波 器 (Gaussian Filter) 是 一 种 时 频 宽 积 最 小 的 理想 滤波 器 ,有 优良 的 特性 。 与 传 
统 的 巴特 沃 思 (Butterworth Filter) 等 滤波 器 有 一 整套 成 熟 的 设计 理论 和 方法 不 同 , 高 斯 滤 
波 器 尚 无 完善 的 设计 理论 。 不 过 高 斯 滤波 克服 了 传统 滤波 相 移 和 设计 复杂 的 缺陷 ,因此 在 
图 像 处 理 .计算 机 视觉 .通信 技术 .计量 测试 .时 频 分 析 、 小 波 变换 等 众多 领域 得 到 了 广泛 的 
应 用 59 。 

高 斯 滤波 器 的 脉冲 响应 函数 为 : 


ep | sn ry 
h(x) =x] z5) ] (3-4) 
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RFH = [7 , 4. abi E M M IEEE. 
通过 一 次 卷 积 运算 可 以 将 原始 信号 >(z) 分 离 成 为 低频 信号 W Ca Rl Bi i  R Ca P8 
个 部 分 : 
Wiz = [ee e z(x)de (3-5) 
R(x) = zx) —WG) (3-6) 
2. 算法 实现 


# include < opencv2/opencv. hpp > 

# include < opencv2/core/core. hpp > 

# include < opencv2/highgui/highgui. hpp > 
# include < opencv2/ imgproc/ imgproc. hpp > 
# include < iostream > 

usingnamespace cv; 

usingnamespace std; 


Mat srcImage, dstlmage; 
int nGaussian = 3; 


staticvoid Gaussian(int, void * ); 


int main() 

( 
srcImage = imread("1. jpg"); 
namedWindow(" Jj tA Fe] f$ " ) ; 
imshow(" 原 始 图 像 ", srcImage) ; 


namedWindow( "高 斯 滤波 ") ; 
createTrackbar(" 内 核 值 :", "高 斯 滤波 ", gnGaussian, 20, Gaussian); 
Gaussian(nGaussian, 0); 


waitKey(); 
return 0; 


) 


staticvoid Gaussian(int, void * ) 


I 
GaussianBlur( srcImage, dstImage, Size(nGaussian * 2 + 1, nGaussian * 2 +1),0,0); 


imshow(" 高 斯 滤波 ",dstImage) ; 

} 

3. 实验 结果 

图 3-35 为 原 图 像 , 图 3-36 为 滤波 后 参数 值 取 3 的 图 像 , 图 3-37 为 图 像 滤波 后 参数 值 为 
7 的 图 像 。 

4. 程序 简 析 

本 程序 与 前 面 的 均值 滤波 程序 很 相似 ,只 是 换 了 一 个 图 像 处 理 函 数 。 除 了 高 斯 滤波 ， 
OpenCV 中 还 有 很 多 去 噪 函数 ,例如 方 框 滤波 、 中 值 滤波 等 ,都 是 这 种 应 用 方式 ,仅仅 是 换 了 


一 个 函数 而 已 ,此 处 不 再 熬 述 。 
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图 3-35 用 于 高 斯 滤波 的 原始 图 像 


图 3-36 高 斯 滤波 内 核 为 3 的 图 像 
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图 3-37 高 斯 滤波 内 核 为 7 的 图 像 
本 次 使 用 的 是 GaussianBlur() 函 数 , 其 声明 如 下 : 


void GaussianBlur(InputArray src, OutputArray dst, Size ksize, double sigmaX, double sigmaY = 0, 

int borderType = BORDER DEFAULT ); 

* src 

第 一 个 参数 src 是 InputArray 类 型 的 变量 ,其 用 处 是 存储 Mat 类 的 需要 进行 高 斯 滤波 
的 原始 图 像 图 像 数 据 。 

* dst 

第 二 个 参数 dst 是 OutputArray 类 型 的 变量 ,其 用 处 是 存储 Mac 类 的 高 斯 滤波 之 后 的 
图 像 数据 。 

* ksize 

第 三 个 参数 ksize 是 Size 型 的 变量 ,表示 高 斯 滤波 器 的 模板 大 小 。 

° sigmaX,sigmaY 

第 四 个 参数 sigmaX 和 第 五 个 参数 sigmaY 都 是 double 类 型 的 变量 ,两 者 分 别 表 示 高 
斯 滤波 在 横向 和 纵向 的 滤波 系数 。 

* borderType 

第 六 个 参数 是 int 型 的 变量 ,表示 边缘 检测 点 的 插值 类 型 。 


3.4.3 非 局 部 均值 滤波 


1. 非 局 部 均值 算法 的 原理 
非 局 部 均值 算法 是 一 种 图 像 去 噪 算法 ,而 领域 平均 去 噪 是 非 局 部 均值 算法 的 理论 基础 ， 
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接 下 来 先 介绍 邻 域 平均 去 噪 算法 的 原理 ,再 介绍 非 局 部 均值 算法 的 理论 。 

1) 邻 域 平均 去 噪 算法 5 

假设 图 像 受到 加 性 高 斯 白 噪声 的 干扰 ,那么 可 以 得 到 被 干扰 后 的 图 像 ; 

g(x) = J(z) 十 PCZz) (3-7) 

其 中 fo OR CR 09 PUR ES g Co o 2€ 8 T 9E A B9 h 09 ES f «o C) RR E 
LESS SE 

邻 域 平均 的 思想 是 较 早 提出 的 一 种 去 噪 理念 ,其 利用 邻 域 像 素 的 均值 估计 中 心 像素 点 。 
该 方法 是 基于 这 样 一 种 前 提 假 设 : 噪声 在 图 像 局 部 区 域内 服从 相同 的 分 布 , 并 且 像素 点 的 
灰 度 值 在 非常 小 的 范围 内 是 缓慢 变化 的 , 即 一 定 程度 上 是 相似 的 。 因 此 ,可 以 用 邻 域 像素 估 
计 中 心 像素 的 值 。 对 于 一 个 给 定 的 像素 点 i, 设 NG) 为 所 选取 的 用 于 平均 计算 的 邻 域 , 则 像 


素 (ORB [COO 
fOD = KS, D +eG))NCG = x 2 9 HRDO (3-8) 
式 中 N 表示 N(i) 内 像素 点 的 个 数 , 因 ELeGO 1-038 CO — /GO WB fO — f Go. H 
VA 表示 像素 点 i 去 噪 后 的 方差 ,o? 为 噪声 信号 g(j) 的 方差 , 则 有 : 
1 


1 : 1 ' 1 
VA = Var| o»- ; 9) Var[gG)] = — No? = >o? (3-9) 
NL] v 22 Vb gg = Ñ 


由 式 (3-9) 可 知 ,NN 值 越 大 ,滤波 后 的 像素 i 处 的 噪声 方差 就 会 越 小 , 仅 为 原来 的 六 。 


在 实际 去 噪 过 程 中 ,由 于 噪声 的 污染 ,在 噪声 图 像 中 寻找 /(i) 与 真实 值 完 全 相同 的 像 
素 比较 困难 ,并 且 在 噪声 较 大 时 去 噪 能 力 有 限 。 虽 然 完全 相同 的 像素 较 少 ,但 是 在 一 定 邻 域 
内 ,相似 的 像素 却 有 很 多 。 为 了 能 够 充分 利用 这 一 特性 ,学 者 们 提出 了 加 权 的 思想 。 

加 权 平 均 的 思想 利用 图 像 中 的 自 相似 信息 ,根据 像素 之 间 的 相似 程度 设置 权 值 的 大 小 。 
基于 加 权 平 均 思想 的 邻 域 平均 去 品 算 法 取得 了 非常 好 的 去 品 效 果 。 此 类 算法 的 关键 在 于 如 
何 度量 像素 之 间 的 相似 性 或 者 构造 权 值 函数 ,这 就 是 非 局 部 均值 算法 的 前 身 。 

2) 非 局 部 均值 算法 

局 部 去 噪 和 变换 域 去 品 算 法 在 去 除 噪声 的 同时 ,能 够 恢复 图 像 的 主要 几何 结构 信息 ,但 
在 精细 结构 ,细节 信息 和 纹理 的 保留 上 明显 不 足 。 图 像 中 的 任何 一 个 像素 都 不 是 孤立 的 ,而 
是 与 其 周围 的 像素 点 结合 在 一 起 共同 构成 图 形 的 几何 结构 。 以 某 一 个 像素 点 为 中 心 的 窗口 
邻 域 ,可 以 很 好 地 描述 像素 点 的 结构 特征 。 针 对 任何 一 个 
像素 点 图 像 块 的 所 有 集合 可 以 看 作 是 图 像 的 一 种 过 完备 表 
示 。 它 采用 的 结构 相似 性 定义 像素 间 的 差异 ,并 对 像素 周 
围 整个 区 域 的 灰 度 分 布 做 整体 对 比 ,根据 图 像 中 灰 度 分 布 
的 相似 性 决定 权 值 的 大 小 ,如 图 3-38 所 示 ,假设 pei gs ds 
具有 完全 相同 的 灰 度 值 ,那么 qeg 三 者 都 会 根据 与 p 
点 不 同 的 欧 氏 距离 而 得 到 相应 的 权 值 ,但 和 qo 的 邻 域 灰 
度 分 布 与 p 更 接近 ,因此 贡献 更 大 的 权 值 ,q; 则 对 p 贡献 较 
小 的 权 值 c9 。 

假设 一 幅 含 噪 图 像 -二 {x(i) 1iE 了) ,其 定义 在 有 界 域 — 图 3-38 NLM 算 法 原理 


CUDA 与 OpenCV 并 行 图 像 处 理 实战 


92k-----------------L----- 


TEN:。 在 这 幅 图 像 中 ,对 于 某 个 像素 点 i, 非 局 部 均值 滤波 算法 利用 所 有 的 像素 的 加 权 平 
均 来 得 到 该 点 的 估计 值 NLC) GO BB: 


NLGO)G) = Jwa, jG) (3-10) 
j€l 
其 中 , 权 值 {ww(i,j)); 依赖 于 像素 i 与 像素 j 之 间 的 相似 性 , 且 满 足 如 下 条 件 : OG.) R. 
Dwaj = 1, 
图 像 域 1 上 的 邻 域 系 统 N 二 {N;});e1 是 图 像 域 1 的 子 集 , 使 得 对 于 所 有 的 像素 点 iET 都 
必须 满足 以 下 两 个 条 件 : 
° iEN;; 
° j€ N;^i€ Nj; 
其 中 ,N; 是 像素 i 的 窗口 邻 域 。 
为 了 能 够 更 好 地 适应 图 像 不 同 区 域 的 特征 ,可 以 将 相似 性 窗口 取 不 同 的 形状 和 大 小 。 
为 了 方便 起 见 , 这 里 使 用 固定 大 小 的 方形 窗口 。 相 似 性 窗口 N; 内 的 灰 度 值 向 量 可 以 表示 
如 下 : 
z(Ni) = (z(j),j € N) (3-11) 
灰 度 值 向 量 >(N;) 和 x(N,) 之 间 的 相似 性 可 以 用 来 决定 像素 点 i 和 像素 点 j 之 间 的 相似 性 ， 
即 在 加 权 平 均 时 ,那些 与 x(N;) 具 有 相似 灰 度 值 向 量 的 像素 点 将 被 分 配 较 大 的 权 值 ,反之 则 
被 分 配 到 较 小 的 权 值 。 为 了 能 够 定量 地 计算 z( N.) fll >(N;) 之 间 的 相似 性 ,可 以 采用 高 斯 
加 权 的 欧 氏 距离 | *CNi) 一 =(Ni) | 3。。 在 含 噪声 的 图 像 与 滤波 后 的 图 像 对 应 位 置 的 窗口 
内 , 灰 度 值 向 量 之 间 的 欧 氏 距离 满足 如 下 关系 : 
E || z(N,) —=(N;) || 2, = | YND — y(N;) I £4 +20 (3-12) 
其 中 ,x 与 y ry Sa WR PS & 3898) D EL f o" 是 噪声 的 方差 。 
基于 以 上 的 式 子 , 可 以 得 到 像素 点 i 和 像素 点 j 之 间 的 权 值 ww(i,j): 


1 bs DURUM 
wlisj) zit Du 


(3-13) 


Job zo = Xew(- A a 化 常数 ，|| zCN;) 一 zCN,) 3 是 指 


i 块 和 j 块 的 加 权 欧 式 距离 的 平方 ,用 dGi ,7 来 表示 ,a(e 二 0) 是 指 高 斯 核 的 标准 差 , 由 选 定 
像素 邻 域 的 窗口 大 小 决定 。 参 数 h 控制 指数 函数 的 衰减 速度 ,同时 影响 着 权 值 的 衰减 速度 ， 
h-—cXo, c 是 用 于 调整 的 系数 ,Buades 将 其 范围 规定 在 1 一 10 之 间 。 

最 终 可 以 将 非 局 部 均值 滤波 的 算法 整理 为 如 下 3 个 算式 : 


dG.j) = lzCNO — «CN ||, (3-14) 
w(i,j) = ex(- 522) (3-15) 
Ywa DG) 
z() = E (3-16) 
Dw, j) 
j€ 


j€1 
图 3-39 显示 了 非 局 部 均值 滤波 算法 的 执行 的 过 程 。 在 算法 执行 的 过 程 中 ,需要 设置 两 个 窗 
口 的 大 小 : 一 个 是 像素 邻 域 窗口 尺寸 天 X 开 ,一 个 是 像素 邻 域 窗口 搜索 范围 的 窗口 尺寸 工 X 工 ， 
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即 在 LXL 大 小 的 窗口 内 选择 像素 的 邻 域 大 小 为 K X 
K 执行 非 局 部 均值 滤波 算法 ,KXK 的 窗口 在 L XL 的 
区 域内 滑动 ,根据 区 域 的 相似 性 确定 区 域 中 心 像素 灰 
度 的 贡献 权 值 ,而 在 这 里 的 图 像 处 理 实现 中 ,窗口 尺 十 
为 天 一 7, 滑 动 范围 为 工 一 17。 

在 相对 稳定 的 条 件 下 ( 即 图 像 有 足够 大 的 尺寸 
时 ) ,对 于 图 像 内 部 的 各 种 细节 都 能 找到 足够 多 的 相似 
区 域 。 

2. NLM 算法 实现 


# include < opencv2/opencv. hpp > 图 3-39. NLM 算法 执行 示意 图 


# include < iostream> 


usingnamespace cv; 
usingnamespace std; 


void addNoiseSoltPepperMono(Mat& src, Mat& dest, double per) 
{ 
cv: :RNG rng; 
# pragma omp parallel for 
for(int j= 0;j« src. rows; j**) 
{ 
uchar * s= src. ptr(j); 
uchar * d= dest. ptr(j); 
for(int i-0;i«src.cols;i**) 
{ 
double al = rng. uniform((double)0, (double)1); 


if(al» per) 
d[i] = s[i]; 
else 
{ 
double a2 = rng. uniform((double)0, (double)1); 
if(a2»0.5)d[i]-0; 
else d[ i] = 255; 
) 
) 
) 
) 
void addNoiseMono(Mat& src, Mat& dest, double sigma) 
{ 
Mat s; 
src. convertTo(s,CV_16S); 
Mat n(s.size(),CV_16S); 
randn(n, 0, sigma); 
Mat temp = s+n; 
temp.convertTo(dest,CV 8U); 
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void addNoise(Mat&src, Mat& dest, double sigma, double sprate = 0.0) 
{ 
if (src. channels() == 1) 
{ 
addNoiseMono( src, dest, sigma) ; 
if(sprate!= 0)addNoiseSoltPepperMono( dest, dest, sprate) ; 
return; 
) 
else 
{ 
vector < Mat > s; 
vector < Mat > d(src. channels()); 
split(src,s); 
for(int i= 0;i« src.channels();i**) 
t 
addNoiseMono(s[i],d[i],sigma); 
if(sprate!- 0)addNoiseSoltPepperMono(d[i],d[i],sprate); 
) 


cv: :merge(d, dest) ; 


staticdouble getPSNR(Mat& src, Mat& dest) 
{ 


int i,j; 
double sse, mse, psnr; 
sse = 0.0; 


for(j= 0;j< src. rows;j++) 
{ 
uchar * d= dest.ptr(j); 
uchar * s= src.ptr(j); 
for(i-0;i«src.cols;i**) 
t 
sse += ((d[i] - s[i]) * (d[i] - s[i]); 


} 
if(sse == 0.0) 
{ 
return 0; 
} 
else 
{ 
mse = sse /(double) (src. cols * src. rows) ; 
psnr = 10.0 * log10((255 * 255) /nse) ; 
return psnr; 


) 


double calcPSNR(Mat& src, Mat& dest) 
{ 


Mat ssrc; 
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Mat ddest; 
if(src.channels() -- 1) 


src.copyTo(ssrc); 
dest. copyTo(ddest) ; 


cvtColor(src,ssrc,CV BGR2YUV); 
cvtColor(dest,ddest, CV BGR2YUV); 


double sn 7 getPSNR(ssrc, ddest) ; 
return sn; 


) 


void nonlocalMeansFilter(Mat& src, Mat& dest, int templeteWindowSize, int searchWindowSize, 
double h, double sigma - 0.0) 
{ 
if (dest. empty())dest = Mat: :zeros(src. size(), src. type()); 
constint tr = templeteWindowSize»^ 1; 
constint sr = searchWindowSize>> 1; 
constint bb = sr+ tr; 
constint D - searchWindowSize * searchWindowSize; 
constint H= D/2 + 1; 
constdouble div = 1.0/(double)D; 
constint tD - templeteWindowSize * templeteWindowSize; 
constdouble tdiv = 1.0/(double)(tD); 
Mat im; 
copyMakeBorder( src, im, bb, bb, bb, bb, cv: : BORDER DEFAULT) ; 
vector < double > weight(256 * 256 * src. channels()); 
double * w = &weight[0]; 
constdouble gauss sd = (sigma == 0.0) ? h sigma; 
double gauss color coeff - - (1.0/(double)(src.channels())) * (1.0/(h* h)); 
for(int i = 0; i < 256 * 256 * src.channels(); i++) 
{ 
double v = std: :exp( max(i- 2.0 * gauss_sd * gauss sd,0.0) * gauss color coeff); 


w[i = vi 


constint cstep = im. step- templeteWindowSize * 3; 
constint csstep = im. step- searchWindowSize * 3; 
for(int j=0;j< src.rows;j**) 
t 
uchar* d = dest.ptr(3); 
int* ww- newint[D]; 
double * nw = newdouble[D]; 
for(inti-0;i«src.cols;i**) 
{ 
double tweight = 0. 0; 
uchar * tprt = im.data + im.step* (sr+j) + 3x (sr+ i); 
uchar * sptr2 = im.data + im.step*j + 3*i; 
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for(int 1 = searchWindowSize,count = D- 1;1—- ;) 
{ 
uchar * sptr = sptr2 + im. step * (1); 
for (int k= searchWindowSize;k —- ;) 
{ 


int e=0; 
uchar * t = tprt; 
uchar * s = sptrt3*k; 
for(int n= templeteWindowSize;n-- ;) 
{ 
for(int m= templeteWindowSize;m—— ;) 
{ 
e+= (s[0] - t[0]) * (s[0] — t[0]) + (s[1] — t[1]) * (s[1] ~ t[1]) + (s[2] - t[2]) * (s(2] - t[2]); 
St-3,tt-3; 
) 
t += cstep; 
s += cstep; 


constint ediv = e* tdiv; 
ww[count -- ] = ediv; 
tweight += w[ediv]; 


) 
if(tweight == 0.0) 
t 


for(int z= 0;z«D;z**) nw[z] = 0; 


else 


double itweight = 1.0/(double)tweight; 
for(int z= 0;z «D;z**) nw[z] = w[ww[z]] * itweight; 
double r-0.0,g-0.0,b- 0.0; 
uchar* s = im.ptr(jttr); s*-3*(tr*i); 
for(int 1 = searchWindowSize, count = 0;1—- ;) 
t 
for(int k = searchWindowSize;k —— ;) 
{ 
r += s[0] * nw[count]; 
g += s[1] * nw[count]; 
b += s[2] * nw[count++]; 
s+=3; 
} 
s += csstep; 
) 
d[0] 
d[1] 
d[2] 
d+=3; 
) 


saturate cast < uchar >(r); 
saturate cast < uchar»(g); 
saturate cast < uchar»(b); 


" 


第 3 章 ”OpenCV 常 用 函数 和 应 用 实例 


} 
delete[] ww; 
delete[] nw; 


} 
} 


int main(int argc, char * * argv) 
$ 
constdouble noise_sigma = 15.0; 


Mat src = imread("lena512. jpg",1); 


Mat snoise; 

Mat dest; 

addNoise( src, snoise, noise_sigma); 

int64 pre = getTickCount(); 

pre = getTickCount(); 
nonlocalMeansFilter(snoise,dest,3,7,noise sigma,noise sigma); 


cout ««"time: "<< 1000. 0 * (getTickCount() — pre) / (getTickFrequency() )««" ms"<< endl; 
cout ««"nonlocal: "<< calcPSNR( src, dest)«« endl << endl; 
inwrite("nonlocal. png", dest); 
imshow("noise", snoise); 
imshow("Non- local Means Filter", dest); 
waitKey(); 
return 0; 


) 


3. 程序 运行 结果 
如 图 3-40 所 示 , 左 图 为 原 图 像 , 中 间 图 为 加 噪 后 图 像 ,右边 为 NLM 算法 去 噪 后 的 图 像 。 


图 3-40 NLM 算法 结果 


4. NLM 算法 的 MATLAB 实现 
MATLAB 程序 相 比 于 C++ 更 好 理解 . 接 下 来 将 给 出 一 套 NLM 算法 使 用 MATLAB 语 
言 实现 的 程序 ,但 该 程序 只 能 处 理 单 通道 的 灰 度 图 像 ,程序 如 下 : 


clear all 
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close al1 


n=3; 
sigma = 8; 
M=8; 
T= sigma ^2; 
y00 = inread( 'lena64. jpg'); 
y0 = y00(1:64,1:64); 
y0 = double(y0); 
N= size(y0,1); 
noise = randn(N, N) ; 
y = y0 + sigma * noise; 
tic// 计 时 代码 tic toc 
figure(1); 
clf; 
image([y0, y]) ; 
colormap(gray(256)); 
axis image; 
axis off; 
drawnow; 
yout = zeros(N, N) ; 
h= waitbar(0, 'NLM filtering ...'); 
y7[y(C:,M* n: - 1:1), y, y(:, end- M- n* 1:end)]; 
y7 [y(M* n: - 1:1,:); y; y(end- M- n* 1:end, :)]; 
fori=n+M+1:1:N+M+n 
waitbar((i-M-n)/N); 
for j=n+M+1:1:N+M+n 
Center = y(i-n:i*n,j-n:j*n); 
Weights = zeros(2* M* 1,2 * M* 1); 


forp- -M:M 

forq- -M:M 
Patch- y(i*p-n:itp*n,jtq-n:j*q*n); 
dist2 = mean((Patch(:) — Center(:)).^2); 
Weights(p+M+1,q+M+ 1) = exp( - dist2/T); 

end; 

end; 


Weights = Weights/sum(Weights(:)); 


yout(i-n-M,j-n-M)- sun(sun(y(i- M:i * M,j - M:j * M). 


close(h) 
y-2y(M*ntl:MtntN,Mtntl:MtntN); 
figure(2); 

clf; 

image([y0, y, yout]) ; 
colormap(gray(256)); 

axis image; 

axis off; 

drawnow; 

toc 


* Weights)); 
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3.5 双 目 视觉 测量 物体 深度 


在 机 器 视觉 领域 中 , 双 目 视觉 是 一 种 应 用 很 广泛 的 手段 。 双 目 视 觉 利 用 两 台 摄像 机 同 
时 对 物体 进行 拍摄 ,根据 景物 点 在 左右 摄像 机 图 像 上 
位 置 关 系 , 可 以 计算 出 景物 点 的 三 维 坐标 ,从 而 可 以 实 
现 三 维 测 量 和 恢复 。 双 目 视 觉 测量 系统 因 其 结构 简 
单 . 操 作 方 便 、 成 本 低 , 以 及 具有 在 线 , 实 时 测量 的 潜 
力 , 而 被 广泛 应 用 于 机 器 人 指导 、 工 业 生 产 现场 以 及 航 
空 等 诸多 领域 3]。 

如 图 3-41 所 示 为 常见 的 双 目 摄像 头 。 


3.5.1 双 目 视觉 原理 


双 目 视觉 测量 的 系统 模型 如 图 3-42 所 示 , 设 左 侧 摄像 机 坐标 为 oziyx ' 右 侧 摄像 机 
AER M 022 yo z ,选取 左 侧 摄像 机 坐标 系 为 世界 坐标 系 , 左 侧 理想 图 像 坐标 系 为 O XS Y A 
侧 理想 图 像 坐标 为 O, X, Y, fi 和 fo 分 别 为 左右 摄像 机 的 焦距 , 像 元 尺寸 为 zw 和 wa , 则 由 
空间 几何 关系 可 以 得 到 空间 点 PP 在 测量 坐标 系 下 的 三 维 坐 标 为 : 

X Bcot(o, + a1) 
d cot(w +a) + cot(o; 十 az ) 


图 3-41 双 目 摄像 头 


zsino,) zsino; 

Y. = Y: fisin(@ 十 aa) ` Y: f. sin(ox 十 oz ) 
B 

cot(o; +a) 十 cot(ows Haz) 


式 子 中 : an —arctanC Xi / fi) «e» —arctanC X; / f.) «z 为 物 距 ,B 为 系统 基线 距 D49 。 


(3-17) 


3-42 双 目 视觉 原理 图 


3.5.2 双 目 视觉 标定 


双 目 视觉 可 以 确定 物体 的 空间 坐标 ,还 可 以 通过 这 种 方式 来 测量 物体 距离 ,也 就 是 物体 
和 摄像 头 之 间 的 距离 ,这 也 被 称 作 测 量 物体 的 深度 ,实际 测量 中 需要 注意 很 多 现实 的 问题 。 
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1. 预 处 理 

在 理论 上 , 双 目 摄像 机 的 两 个 摄像 头 即 便 焦 距 不 同 也 可 以 实现 双 目 视觉 测量 物体 的 深 
度 ,但 是 实际 上 在 操作 时 务必 使 用 两 个 焦距 相同 的 摄像 头 。 如 果 是 使 用 两 个 单 目 摄像 头 拼 
装 成 的 双 目 摄像 头 , 请 尽量 固定 好 两 个 摄像 头 之 间 的 距离 ,并且 保证 两 个 单 目 摄像 头 不 会 
有 高 度 差 , 尽 可 能 地 保持 水 平等 。 通 常 如 果 使 用 了 集成 好 的 双 目 摄像 头 , 这 样 拍 出 的 两 
个 图 像 会 集成 在 一 个 图 片上 ,这 种 图 像 则 需要 进行 一 次 图 像 分 割 预 处 理 。 如 果 是 两 个 单 
独 的 摄像 头 ,或 者 是 双 目 摄像 头 拍 出 的 两 个 图 像 是 分 开 进行 存储 的 ,一 定 要 注意 每 次 拍 
摄 好 的 图 像 要 分 别 重 命名 ,如 leftl 和 rightl ,否则 很 容易 在 处 理 之 前 发 生 两 个 图 像 不 配套 
的 情况 。 

2. 摄像 机 标定 

在 预 处 理 结 束 之 后 ,就 需要 对 摄像 机 进行 标定 ,为 后 续 的 双 目 摄像 头 测 深度 做 好 预 处 
理 。 标 定 相当 于 使 用 一 些 手 段 获取 到 双 目 摄像 头 的 焦距 、 双 目 摄像 头 之 间 的 距离 等 信息 。 
因此 不 论 是 使 用 MATLAB 工具 箱 进行 标定 ,还 是 使 用 OpenCV 标定 甚至 是 手动 输入 都 是 
可 以 的 ,不 过 MATLAB 工具 箱 标定 的 精度 更 高 。 本 节 将 介绍 两 种 使 用 MATLAB 工具 箱 
进行 标定 的 方法 ,OpenCV 标定 则 在 后 面 的 程序 实现 中 进行 介绍 。 

方法 一 : calib 工具 箱 

calib 工具 箱 不 是 MATLAB 自身 集成 进去 的 工具 箱 , 但 是 其 标定 的 效果 通常 比 其 他 标 
定 方法 好 ,因此 这 种 标定 方式 还 在 普遍 使 用 中 ,下 面 将 介绍 如 何 使 用 calib 工具 箱 进行 
标定 。 

(1) MATLAB 和 calib 的 下 载 。 

MATLAB 的 版 本 没有 限制 ,后 续 的 标定 将 以 MATLAB2016b 来 作 示例 ,calib 工具 箱 
全 称 是 TOOLBOX_calib。 

下 载 地 址 : http://www. vision. caltech. edu/bouguetj/calib doc/ 

CSDN 下 载 地 址 : http: //download. csdn. net/download/kevinfrankchen/9454023 

百度 网 盘 : 链接 : http://pan. baidu. com/s/1c2Eurc 密码 : 19x8 

(2) 解压 并 安装 。 

下 载 完成 后 需要 将 其 解压 ,将 文件 夹 名 称 修 改 为 calib, 并 放 在 MATLAB 的 默认 路 径 
下 或 者 是 放 在 MATLAB 的 toolbox 文件 夹 中 。 示 例 中 的 路 径 为 : 


E:\MATLAB2015B\toolbox 


解压 后 的 效果 如 图 3-43 所 示 。 

(3) 在 MATLAB 中 添加 calib 工具 箱 。 

将 calib 放 进 指定 的 路 径 之 后 ,就 将 MATLAB 打开 ,在 “主页 ”界面 中 ,找到 “设置 路 径 ” 
选项 ,并 打开 ,如 图 3-44 所 示 。 

进入 添加 路 径 界 面 之 后 单 击 “ 添 加 并 包含 子 文件 夹 …” 按 钮 ,添加 路 径 和 对 应 路 径 下 的 
子 文件 夹 , 如 图 3-45 所 示 。 

找到 之 前 放置 的 calib 文件 夹 , 单 击 “ 选 择 文件 夹 ” 将 其 添加 至 路 径 中 ,如 图 3-47 所 示 。 
最 后 回 到 如 图 3-46 所 示 的 界面 中 , 单 击 “ 保 存 ” 按 钮 即 可 。 至 此 ,calib 标定 工具 箱 添加 


完成 。 
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calib 修改 日 期 : 2017/3/16 17:45 
| x= 


图 3-43 calib 安放 位 置 


Á MATLAB R2016b 


LH Left Calib Results.mat 
EE Right Calib Results.mat. 


图 3-44 MATLAB 添加 工具 箱 第 一 步 


4 amm = D X 
MAESE, 
MATLAB RRE: 
EIR- T CAUsers\14545\Documents\MATLAB ^ 
AnA PAR. | FAMatlab2016b\toolbox\matlab\datafun = 


| FAMatlab2016b\toolbox\matlab\datatypes 
| FAMatlab2016b\toolbox\matlab\elfun 
了 FAMatlab2016b\toolbox\matlab\elmat 


[E] FAMatlab2016b\toolbox\matlab\funfun 
|_| FAMatlab2016b\toolbox\matlab\general 
HE | FAMatlab2016b\toolbox\matlab\iofun 
[] FAMatlab2016b\toolbox\matlab\lang 
E (7 bwouoozoctvoobomeuoomotn 


| =m 0| 」 F Matlab2016btoolboxumatlabumvm 


| FAMatlab2016b\toolbox\matlab\ops 

| FAMatlab2016b\toolbox\matlab\polyfun 

j FAMatlab2016b\toolbox\matlab\randfun 

mie | | FAMatlab2016b\toolbox\matlab\sparfun ` 


保存 xm 还 原 默认 帮助 


图 3-45 MATLAB 添加 工具 箱 第 二 步 
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> 此 电脑 软件 (F) > Matlab2016b > toolbox 


^ 名 称 修改 日 期 -m 大 小 
Lj aero 2017/9/24 14:59 文件 夫 
aeroblks 2017/9/24 14:59 — 文件 突 
antenna 2017/9/24 15:05 Xi 
audio 2017/9/24 15:05 X 
bioinfo 2017/9/24 15:05 Fi 
calib 2017/9/24 15:47 RHR 
J coder 2017/9/24 15:03 X 
comm 2017/9/24 15:00 x 
compiler 2017/9/24 15:02 xx 
compiler sdk 2017/9/24 15:02 Ze 
pen ] anza mnn free 


图 3-46. MATLAB 添加 工具 箱 第 三 步 


(4) 在 MATLAB 中 添加 图 像 路 径 。 

首先 将 左边 相机 拍 到 的 图 像 按照 拍照 的 先后 顺序 排列 好 ,并 依次 命名 为 left_ 十 数字 ” 
的 形式 ,如 left_1. bmp、left_2. bmp。 将 右 摄像 头 拍 到 的 图 像 依次 命名 为 “right_ 十 数字 ”的 
形式 。 最 后 将 两 个 摄像 头 拍 到 的 图 像 分 别 放 在 两 个 文件 夹 中 ,路 径 文件 尽量 不 包含 中 文 , 虽 
然 高 版 本 的 MATLAB 可 以 兼容 中 文 路 径 ,但 是 仍然 可 能 出 现 错误 。 如 图 3-47 和 图 3-48 所 
示 为 双 目 摄像 头 分 别 拍摄 到 的 图 像 。 为 了 演示 方便 ,将 左 摄像 头 取出 前 十 张 图 像 命名 为 
left 1. bmp, left_2. bmp、… ,left_10. bmp。 同 样 , 右 摄像 头 取出 与 左 摄像 头 对 应 的 十 张 图 像 
也 分 别 命名 为 right_1. bmp \right_2. bmp、… ,right_10. bmp. 
BB. EMIR 107 - 9 x 


EH e ss = == e 


+ MUBM ， 文 件 Dj ^ BinocularVision ，610 RB > 107 


NT objectibmp  objed2bmp  cbjectibmp 
< Zae Z) 


s] 


sma 


图 3-47 左 摄像 头 拍 到 的 图 像 
两 个 文件 夹 的 路 径 分 别 为 : 


D:\BinocularVision\6.10_ 双 目 照片 \107 
D:\BinocularVision\6.10_ 双 目 照片 \108 
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= ERIR 1% EC ES. 
EH := = ss == e| 
^D > KAR > RHD) ，BinocularVison > 610 RES > 108 


s tss 

mam 

+a 

m x= 

EI 
cupAaopenc | 
MATLAB 20172 
Matiab2016b 
szeria 


i OneDrive 


dibmp [>= 
objealbmp | objec2bmp ^ objeaabmp right lbmp right2bmp r "ight4bmp 
heisst mE E EL En EL [ED 
se Z) right bmp. right bmp right 7.bmp right Bbmp right 9.bmp. right 10bmp 
ee d) 
54 个 项 目 


E: [E] 


图 3-48 A BER SR RO E 


之 后 打开 MATLAB 中 的 “设置 路 径 ” 界 面 ,并 单 击 “ 添 加 并 包含 子 文件 夹 …” 按 钮 ,将 两 
个 文件 夹 添 加 到 MATLAB 的 path 中 ,如 图 3-49 所 示 。 


4 设置 路径 - D x 


FAMatlab2016b\toolbox\matlab\datafun 
FAMatlab2016b\toolbox\matlab\datatypes 
FAMatlab2016b\toolbox\matlab\elfun 
FAMatlab2016b\toolbox\matlab\elmat 
FAMatlab2016b\toolbox\matlab\funfun 
He FAMatlab2016bVXtoolboxymatlab general 


F\Matlab2016b\toolbox\matlab\iofun 
E FAMatiab2016b\toolbox\matlab\lang 
EZRA F\Matlab2016b\toolbox\matlab\matfun 
F\Matlab2016b\toolbox\matiab\mvm 
FAMatlab2016b\toolbox\matlab\ops 


FAMatlab2016b\toolbox\matlab\polyfun 
| me FAMatlab2016b\toolbox\matlab\randfun 


em xm 还 原 mu l| "M | 


3-49 MATLAB 中 添加 图 像 路 径 第 一 步 


将 两 个 路 径 添 加 进去 之 后 会 在 “设置 路 径 ” 界 面 中 出 现 两 个 路 径 , 单 击 “ 保 存 ” 按 钮 之 后 
关闭 “设置 路 径 ” 界 面 即 可 ,如 图 3-50 所 示 。 

C) 单个 摄像 头 标定 。 

所 有 需要 用 到 的 路 径 添 加 完成 后 ,在 MATLAB 命令 窗口 中 输入 calib_gui, 会 出 现 如 
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4 anne 
rss xz E 
EID.. 
——— 
| FAMatlab2016b\toolbox\calib 
1.4 CAUsersV14545yDocuments | MATLAB. 
|] FAMatlab2016b\toolbox\matlab\datafun 
; FAMatlab2016b\toolbox\matlab\datatypes 
| FAMatlab2016b\toolbo\matlab\elfun 
TE _ Í FAMatlab2016b\toolbox\matiab\elmat 
| F\Matiab2016b\toolbox\matlab\funfun 
| F\Matiab2016b\toolbox\matlab\general 
| FAMatlab2016b\toolbox\matlab\iofun 
| FAMatlab2016b\toolbox\matlab\lang 
| F\Matlab2016b\toolbox\matlab\matfun 
due 」FNMatab2016b\toolboxmatab\mvm 
= í = 


图 3-50 MATLAB 中 添加 图 像 路 径 第 二 步 


图 3-51 所 示 的 窗口 , 单 击 第 一 个 选项 Standard(all the images are stored in memory) ,会 出 


现 如 图 3-52 所 示 的 菜单 栏 。 


| » F: > Matlab2016b ，bin » 


© esmen 
>> calib gui 
中 f» — 
F] Camera Calibration Toolbox - Selec.. 一 x 
Standard (all the images are stored in memo 
olbat Memory efficient (the images are loaded one by one) 
[ Exit 
E] 
f8xml 
° 
xe - eis Ink 


图 3-51 调用 标定 函数 


国 Camera Calibration Toolbox - Standard Version - x 
Image names Read images Extract grid corners. Calibration 
Show Extrinsic Reproject on images Analyse error Recomp. corners 
Add/Suppress images Save | Load Exit 
Comp. Extrinsic Undistort image Export calib data Show calib results 


图 3-52 ”标定 菜单 栏 


zi 


回 到 MATLAB 的 命令 行 窗 口中 ,将 路 径 改 为 左 图 像 存储 的 路 径 , 如 图 3-53 所 示 。 
单 击 图 3-52 中 的 Image names ,进行 图 像 读 入 。 如 图 3-54 所 示 为 读 入 图 像 后 的 画面 ， 
图 上 方 为 文件 夹 中 所 有 图 像 ,在 下 方 的 第 一 行 输 入 left_ 表 示 从 上 述 图 像 中 仅 提 取 文 件 名 以 


left 开始 的 图 像 。 


在 第 二 栏 中 输入 b 表示 仅 输入 . bmp 格式 的 文件 ,导入 成 功 后 如 图 3-55 和 图 3-56 所 示 。 
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名 称 ^ 
回 47.bmp. 


图 3-53 ”修改 Matlab 的 路 径 


>> calib gui 


19. bap 29. bap 49. bap left 8.bmp 
e 20. bap 30. bap 50. bap left, 9. bap 
11. bap 21. bap 31. bap left_1.bap  objectl.bap 
12. bap 22. bap 32. bap left 10.bmp object2. bap 
13. bap 23. bap 33. bap. left 2.bap object3. bap 
14. bap 24. bap 34. bap left 3.bap object4. bap 
18. bap 25. bap 35. bap left, 4. bap 
16.bap 26. bap 36. bap left, 5. bap 
17. bap 27. bap 37. bap left, 6. bap 
18. bap 28. bap 38. bap left 7.bap 


|f% Basename camera calibration images (without number nor suffix): left | 


图 3-54 标定 函数 图 像 读 人 


Basename camera calibration images (without number nor suffix): left. 
Image format: ([]F r = '", b = bap’, t= tif’, 'p = pgr, j= jpg, m= ppr) b 
Loading image 1...2...3...4...5...6...7...8...9...10... 


done 


3-55 ”标定 函数 成 功 读 人 图 像 1 


回 到 主 控 界面 , 单 击 Extract grid corners 提取 每 幅 图 像 的 角 点 。 单 击 完成 之 后 ,命令 
行 会 出 现 如 图 3-57 所 示 的 提示 。 这 几 项 都 可 以 直接 按 Enter 键 跳 过 ,它们 表示 以 多 大 的 窗 
口 去 搜索 棋盘 窗 , 较 大 的 窗口 会 更 方便 提取 ,即便 点 有 适当 偏离 也 能 找到 。 

在 按 Enter 键 之 后 会 跳出 第 一 个 棋盘 窗 ,按照 顺 时 针 的 顺序 依次 选中 棋盘 中 外 侧 第 二 
圈 的 角 点 (不 要 单 击 最 外 侧 的 角 点 ) ,如 图 3-58 所 示 。 
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F Figure 2 - D x 
| XP SO SEV SAN IAM SMO SOW 帮 助 (H) ` 
S8gə s ss oəgz a nB an 


Calibration images 


j| 


图 3-56 ”标定 函数 成 功 读 人 图 像 2 


Extraction of the grid corners on the images 

Number(s) of image(s) to process ([] = all images) = 

Window size for corner finder (wintx and vinty) 

wintx ([] = 10) = 

winty ([] = 10) = 

Window size = 21x21 

Do you want to use the automatic square counting mechanism (0-[]-default) 


or do you always want to enter the number of squares manually (l,other)? 1 


图 3-57 角 点 提取 


F Figure 2 一 口 X 
XHA SRE EEV EAN 工具 (T) 桌面 (D) 窗口 (W) WRH) li 
Qamqs s ss 0599-3 08H sug 


200 400 600 800 1000 1200 


图 3-58 ”提取 角 点 
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单 击 之 后 需要 输入 一 些 棋 盘 的 参数 信息 ,首先 输入 图 像 中 每 一 个 方块 的 长 和 宽 , 单 位 是 
毫米 ,如 图 3-59 所 示 。 


Processing image 1... 
Using (wintx, winty)=(10,10) - Window size = 21x21 (Note: To reset the window size, run script clearwin) 
Click on the four extreme corners of the rectangular complete pattern (the first clicked corner is the origin)... 
Size dX of each square along the X direction ([]-100ma) = 18 
Size dY of each square along the Y direction ([]-100ma) = 18 
1f the guessed grid corners (red crosses on the image) are not close to the actual corners, 
it is necessary to enter an initial guess for the radial distortion factor kc (useful for subpixel detection) 

| JX Need of an initial guess for distortion? ([]=no, other=yes) 


图 3-59 输入 标定 参数 


接 下 来 按 Enter 键 , 依 次 标定 剩 下 9 张 图 像 的 角 点 ,最 后 回 到 菜单 界面 。 在 菜单 界面 单 
击 Calibration 按钮 进行 标定 。 

标定 完成 后 , 即 可 得 到 标定 的 结果 , 单 击 Show Extrinsic 可 视 化 标定 的 结果 ,如 图 3-60 
所 示 。 


sp _ 口 X 
XHA S56 SEV MAM IAM SEND) SOW) #R(H) * 
Dago s ss omega ng am 


Extrinsic parameters (camera-centered) 


图 3-60 标定 结果 可 视 化 


单 击 Analyse Error 可 以 查看 标定 的 误差 情况 ,如 图 3-61 所 示 。 

标定 过 一 个 摄像 头 后 , 单 击 Save 按钮 保存 结果 。 将 保存 的 Calib_Results. mat 文件 的 
名 称 改 为 Left_ Calib_Results. mat, 并 放 在 另 一 个 文件 夹 中 。 

完成 左 摄像 头 标定 后 ,对 右 摄像 头 的 图 像 使 用 同样 的 方法 进行 标定 ,将 保存 的 结果 
Calib Results. mat 名 称 改 为 Right Calib Results. mat 并 放 在 之 前 存放 Left _ Calib_ 
Results. mat 的 文件 夹 中 。 

左右 摄像 头 都 标定 完成 后 ,在 MATLAB 的 命令 行 窗口 中 输入 stereo. gui 启动 立体 标 
定 板 , 如 图 3-62 所 示 。 
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Reprojection error (in pixel) - To exit: right button 
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28r 
1 45 0 05 1 
x 
图 3-61 标定 误差 分 析 
命令 行 窗口 
>> stereo gui 
f» 
国 Stereo Camera Calibration Toolbox - x 
Load left and right calibration fies Run stereo calibration. 
Show Extrinsics of stereo rig Show intrinsic parameters. 
Save stereo calb results. Load stereo cald resuts 
|. Rectify the calbration mages — | Ext 


图 3-62 启动 立体 标定 板 


将 MATLAB 的 默认 路 径 改 为 存放 两 个 . mat 文件 的 文件 夹 , 如 图 3-63 所 示 。 
单 击 Load left and right calibration files, 在 命令 行 窗 口中 分 别 填写 左 、 右 标定 好 的 结 


果 , 如 图 3-64 所 示 。 


输入 完成 之 后 单 击 Run stereo calibration 对 左右 参数 进行 修正 ,之 后 再 单 击 Show 


Extrinsics of stereo rig 即 可 将 结果 可 视 化 ,如 


图 3-65 和 图 3-66 所 示 。 


最 后 单 击 Save stereo calib results 即 可 保存 标定 后 的 结果 。 


方案 二 : 扩展 标定 APP 


(1) 在 版 本 比较 新 的 MATLAB 中 ,可 以 在 一 侧 找 到 附加 的 APP, 如 图 3-67 所 示 , 可 以 
在 其 中 找到 一 个 名 为 Stereo Camera Calibrator 的 扩展 APP, 其 功能 就 是 双 目 立体 视觉 的 标定 。 
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>> stereo_gui 


Right_Calib_Results. mat 


Left Calib_Results.mat 
Right Calib Results.mat 


Loading of the individual left and right camera calibration files 
V3 Name of the left camera calibration file ([]-Calib Results left.mat) 


图 3-63 立体 标定 _ 修 改 路 径 


Loading of the individual left and right camera calibration files 

Name of the left camera calibration file ([]-Calib Results left.mat): Left Calib Results.mat 
Name of the right camera calibration file ([]-Calib Results right.mat): Right Calib Results.mat 
Loading the left camera calibration result file Left Calib Results.mat... 

Loading the right camera calibration result file Right Calib Results.mat... 


图 3-64. 输入 两 个 . mat 文 件 


国 3p 一 口 x 
文件 昌 S50 EV RO IAD 桌面 (D) ”窗口 (W) 。 帮助 (H) a 
Dago s ss oƏəag a ng an 


Extrinsic parameters 


图 3-65 立体 标定 可 视 化 主 视图 
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图 3-66 ”立体 标定 可 视 化 俯视 图 
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图 3-67 MATLAB 标定 第 一 步 


(2) 安装 好 APP 后 ,如 图 3-68 所 示 . 单 击 左 上 角 的 Add Images 添加 左右 摄像 头 的 图 像 。 


(3) 在 添加 图 片 时 ,需要 在 上 边 的 一 栏 中 添加 用 于 存储 左 摄像 头 拍摄 到 的 图 片 的 文件 
夹 ,下 边 则 需要 添加 用 于 存储 右 摄 像 头 拍摄 到 的 图 片 的 文件 夹 , 如 图 3-69 Bros ,最 下 边 需 要 
填 好 每 一 个 标定 格 的 宽度 。 
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图 3-68 MATLAB 标定 第 二 步 


国 Load Stereo Images 
Folder for images from camera 1: 
[ca 
Folder for images from camera 2: 
CA o o — 
Size of checkerboard square: — | 25 
[ox J Cancel | 


图 3-69 MATLAB 标定 第 三 步 


需要 注意 的 是 ,虽然 对 文件 夹 中 的 图 片 名 称 没有 明确 要 求 ,但 是 为 了 避免 不 必要 的 麻 
烦 , 提 高 匹配 的 成 功率 ,一 定 要 把 拍摄 到 的 图 片 按照 对 应 的 顺序 排 好 , 即 按照 标定 板 每 个 角 
度 拍摄 的 顺序 进行 排序 ,如 图 3-70 所 示 为 示例 文件 夹 存储 的 图 片 。 

(4) 之 后 进入 标定 ,如 图 3-71 所 示 ,在 这 个 过 程 中 耐心 等 待 即 可 。 

标定 完成 后 如 图 3-72 所 示 ,可 以 删除 标定 效果 不 好 的 图 片 ,以 提高 标定 的 精度 。 本 示 
例 中 使 用 的 图 片 较 少 ,在 实际 标定 过 程 中 使 用 的 图 片 越 多 越 好 。 

(5) 在 完成 整个 标定 流程 后 ,可 以 单 击 “ 保 存 ” 按 钮 存储 并 关闭 ,将 摄像 机 的 参数 以 
MATLAB 特有 的 . mat 文件 进行 存储 ,为 后 续 测 深度 提供 摄像 头 参数 ,如 图 3-73 所 示 。 


3.5.3 OpenCV 实现 


在 本 示例 的 测量 物体 深度 程序 中 ,采用 了 OpenCV 进行 摄像 机 标定 。 因 为 使 用 的 是 双 
目 摄像 头 , 所 以 在 读 人 时 需要 先 做 简单 的 图 像 分 割 ,之 后 再 进行 SIFT 特征 提取 匹配 生成 视 


差 图 ,最 后 测 得 物体 深度 。 
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图 3-70 MATLAB 标定 第 四 步 


国 Analyzing Images l-i- 


Detecting checkerboard in image 1 of 10 


Æ 3-71 MATLAB 标定 第 五 步 


A Stereo Camera Calisto - projection Errors 
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图 3-72 实际 标定 结果 
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|. Save session as 
Ji “ BinocularVision » 4.17 RERE » v |ts | 224170884 E 
| 组 织 ” 新 建文 件 夫 EA] 
dmyEREE ^ 。 名 称 ^ 修改 日 其 m 
ES Jd 107 2017/5/11 20:58 文件 夫 
as J 108 2017/4/21 1006 。 文件 去 
Bus Ji left 


2017/5/11 20:00 — 文件 夫 
EE J right 2017/5/11 20:00 — 文件 去 
2017/4/21 1032 。 文件 夫 


文件 名 (N): calibrationSession.mat 
RERET): [MAT-fles Cuman 


onmes zm 


图 3-73 存储 为 . mat 文件 
1. 程序 读 入 的 图 像 


(1) 程序 运行 前 需要 输入 多 组 标定 图 像 和 实际 场景 的 图 像 ,如 图 3-74 所 示 为 其 中 一 组 
标定 图 像 。 


3-74 OpenCV 标定 


(2) 如 图 3-75 所 示 为 需要 测定 深度 的 图 像 。 


图 3-75 被 测 图 像 
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2. 程序 实现 


# include < opencv2/opencv. hpp > 

# include < opencv2VingprocVimgproc. hpp > 
# include < opencv2VcoreVcore. hpp > 

# include < opencv2 VhighguiVhighgui. hpp > 
# include < opencv2Vcalib3dVcalib3d. hpp > 
# include < opencv2\features2d\features2d. hpp > 
# include < opencv2Megacy M egacy. hpp > 

# include < iostream> 

# include < fstream > 

* include < vector > 

# include <list> 

# include < algorithm» 

# include < iterator > 

# include < cstdio > 

# include < string» 


using namespace cv; 
using namespace std; 


typedef unsigned int uint; 


Size imgSize(1280, 720); 


Size patSize(12,9); // 内 半 圈 的 脚 点 个 数 12*9 
const double patLen = 18.0f; //unit: mm 标定 板 每 个 格 的 宽度 (金属 标定 板 ) 
double imgScale = 1.0; // 图 像 缩放 的 比例 因子 


// 将 要 读 取 的 图 片 路 径 存储 在 fileList 中 
vector «string» fileList; 
void initFileList(string dir, int first, int last)( 
fileList.clear(); 
for(int cur = first; cur <= last; cur++){ 
string str file = dir + "/" + to string(cur) + ".jpg"; 
fileList.push back(str file); 


// 生 成 点 云 坐 标 后 保存 
static void saveXYZ(string filename, const Mat& mat) 
t 

const double max z = 1.0e4; 

ofstream fp(filename); 

if (!fp.is open()) 

{ 
std: :cout <<" 打 开 点 云 文件 失败 "<< endl; 
fp.close(); 
return; 
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// 遍 历 写 人 
for(int y = 0; y < mat. rows; y**) 
t 
for(int x = 0; x < mat.cols; x++) 
t 
Vec3f point = mat.at« Vec3f»(y, x); — // 三 通道 浮 点 型 
if(fabs(point[2] — max z) < FLT EPSILON || fabs(point[2]) > max z) 
continue; 
fp«« point[0]««" "«« point[1]««" "«« point[2]«« endl; 
) 
} 
fp.close(); 
) 
// 存 储 视差 数据 


void saveDisp(const string filename, const Mat& mat) 


( 


ofstream fp(filename, ios::out); 
fp << mat. rows << endl; 

fp << mat. cols << endl; 

for(int y = 0; y< mat. rows; y**) 
1 


for(int x = 0; x < mat. cols; x++) 


( 
double disp = mat.at«short»(y, x); // 这 里 视差 矩阵 是 CV. 16S 格式 的 , 故 用 
short 类 型 读 取 
fp «« disp << endl; // 若 视差 矩阵 是 CV_32F 格式 , 则 用 float 
类 型 读 取 


) 
fp.close(); 


void F Gray2Color(Mat gray mat, Mat& color mat) 


í 


color_mat = Mat::zeros(gray_mat.size(), CV_8UC3); 
int rows = color_mat.rows, cols = color_mat.cols; 


Mat red = Mat(gray_mat.rows, gray_mat.cols, CV_8U); 

Mat green = Mat(gray_mat.rows, gray_mat.cols, CV_8U); 
Mat blue = Mat(gray_mat.rows, gray_mat.cols, CV_8U); 
Mat mask = Mat(gray_mat.rows, gray_mat.cols, CV_8U); 


subtract(gray_mat, Scalar(255), blue);  //blue(I) = 255 - gray(I) 


red = gray mat.clone(); //red(I) = gray(I) 
green = gray_mat.clone(); //green(I) = gray(I),if gray(I) < 128 
compare(green, 128, mask, CMP GE); //green(I) = 255 - gray(I), if gray(I) > = 128 


subtract(green, Scalar(255), green, mask); 
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convertScaleAbs(green, green, 2.0, 2.0); 


vector « Mat > vec; 

vec.push back(red); 

vec.push back(green); 
vec.push back(blue); 
cv::merge(vec, color mat); 


Mat F mergeIng(Mat imgl, Mat disp8)( 
Mat color mat - Mat::zeros(imgl.size(), CV 8UC3); 


Mat red = imgl.clone(); 
Mat green = disp8.clone(); 
Mat blue = Mat::zeros(imgl.size(), CV 8UC1); 


vector < Mat > vec; 

vec. push back(red); 

vec. push back(blue); 

vec. push back(green); 
cv::merge(vec, color mat); 


return color mat; 


// 双 目 立体 标定 
int stereoCalibrate(string intrinsic filename = "intrinsics. yml", string extrinsic filename = 
"extrinsics. yml") 
{ 
vector < int > idx; 


// 左 侧 相机 的 角 点 坐标 和 右 侧 相机 的 角 点 坐标 
vector < vector < Point2f >> imagePoints[2]; 


//vector < vector < Point2f >> leftPtsList(fileList.size()); 
//vector < vector < Point2f >> rightPtsList(fileList.size()); 


for(uint i = 0; i< fileList. size();++i) 
{ 
vector < Point2f > leftPts, rightPts; // 存 储 左 、 右 相机 的 角 点 位 置 
Mat rawImg = imread(fileList[i]); // 原 始 图 像 
if(rawImg. empty() )( 
std: :cout ««"the Image is empty..."«« fileList[i]«« endl; 


continue; 
) 
// 截 取 左右 图 片 


Rect leftRect(0, 0, imgSize.width, imgSize. height); 
Rect rightRect(imgSize.width, 0, imgSize. width, imgSize. height); 


Mat leftRawImg = rawIng(leftRect); // 切 分 得 到 的 左 原始 图 像 
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Mat rightRawImg = rawImg(rightRect); ”// 切 分 得 到 的 右 原始 图 像 


imwrite("left. jpg", leftRawImg); 

imwrite("right. jpg", rightRawImg); 

/ /std: :cout <<" 左 侧 图 像 :宽度 "<< leftRawImg. size(). width <<" 高 度 "<< rightRawImg. 
size().height << endl; 

//std: :cout <<" 右 侧 图 像 :宽度 "<< rightRawImg. size(). width <<" 高 度 "<< rightRawImg. 
size().height << endl; 


Mat leftImg, rightImg, leftSimg, rightSimg, leftCimg, rightCimg, leftMask, rightMask; 


//BGT -> GRAY 
if(leftRawImg.type() == CV 8UC3) 
cvtColor(leftRawImg, leftImg, CV BGR2GRAY); // 转 为 灰 度 图 
else 


leftImg = leftRawImg.clone(); 
if(rightRawIng.type() == CV 8UC3) 
cvtColor(rightRawImg, rightImg, CV BGR2GRAY); 
else 
rightImg = rightRawImg.clone(); 


imgSize = leftInmg.size(); 


// 图 像 滤波 预 处 理 
resize( leftImg, leftMask, Size(200, 200)); //resize 对 原 图 像 img 重新 调整 大 小 
生成 mask 图 像 大 小 为 200 * 200 
resize(rightImg, rightMask, Size(200, 200)); 
GaussianBlur( leftMask, leftMask, Size(13, 13), 7); 
GaussianBlur(rightMask, rightMask, Size(13, 13), 7); 
resize(leftMask, leftMask, imgSize); 
resize(rightMask, rightMask, imgSize); 
medianBlur(leftMask, leftMask, 9); // 中 值 滤波 
medianBlur(rightMask, rightMask, 9); 


for (int v = 0; v< imgSize.height; v++) ( 
for (intu = 0; u< imgSize.width; u++) ( 
int leftX = ((int)leftImg.at<uchar>(v, u) - (int)leftMask.at 
«uchar»(v, u)) * 2 + 128; 
int rightX = ((int)rightImg.at« uchar»(v, u) - (int)rightMask.at 
Xuchar»(v, u)) * 2 + 128; 
leftImg.at« uchar»(v, u) = max(min(leftX, 255), 0); 
rightImg.at« uchar»(v, u) = max(min(rightX, 255), 0); 
) 


// 寻 找 角 点 ,图 像 缩放 
resize(leftImg, leftSimg, Size(), imgScale, imgScale); 
// 图 像 以 0.5 的 比例 缩放 
resize(rightlImg, rightSimg, Size(), imgScale, imgScale); 
cvtColor(leftSimg, leftCimg, CV GRAY2BGR); 
// 转 为 BGR 图 像 ,cimg 和 sing 是 800 x 600 的 图 像 
cvtColor(rightSimg, rightCimg, CV GRAY2BGR); 
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// 寻 找 棋盘 角 点 

bool leftFound = findChessboardCorners(leftCimg, patSize, leftPts, CV CALIB CB. 
ADAPTIVE THRESH|CV CALIB CB FILTER QUADS); 

bool rightFound = findChessboardCorners(rightCimg, patSize, rightPts, CV CALIB CB. 
ADAPTIVE THRESH|CV CALIB CB FILTER QUADS); 


if(leftFound) 
cornerSubPix(leftSimg, leftPts, Size(11, 11), Size(— 1, - 1 ), 
TermCriteria(CV TERMCRIT ITER + CV TERMCRIT EPS, 300, 0.01)); 
if(rightFound) 
cornerSubPix(rightSimg, rightPts, Size(11, 11), Size(- 1, - 1), 
TermCriteria(CV TERMCRIT ITER + CV TERMCRIT EPS, 300, 0.01)); 


// 亚 像素 
// 放 大 为 原来 的 尺度 
for(uint j = 0;j < leftPts. size();j++) // 该 幅 图 像 共 132 个 角 点 ,坐标 乘 以 2， 
还 原 角 点 位 置 


leftPts[j] * = 1./imgScale; 
for(uint j = 0;j < rightPts.size();j**) 
rightPts[j] * = 1./imgScale; 


// 显 示 
string leftWindowName = "Left Corner Pic", rightWindowName = "Right Corner Pic"; 


Mat leftPtsTmp = Mat(leftPts) * imgScale; // 再 次 乘 以 imgScale 
Mat rightPtsTmp = Mat(rightPts) * imgScale; 


drawChessboardCorners(leftCimg, patSize, leftPtsTmp, leftFound); 

// 绘 制 角 点 坐标 并 显示 
imshow(leftWindowName, leftCimg); 
imwrite(" 输 出 /DrawChessBoard/" + to string(i) +"_left. jpg", leftCimg); 
waitkey(200); 


drawChessboardCorners(rightCimg, patSize, rightPtsTmp, rightFound); 

// 绘 制 角 点 坐标 并 显示 
imshow(rightWindowName, rightCimg); 
imwrite(" 输 出 /DrawChessBoard/" + to_string(i) +"_right. jpg", rightCimg); 
waitKey(200); 


cv: :destroyAllWindows(); 


// 保 存 角 点 坐标 
if(leftFound && rightFound) 
t 
imagePoints[0].push back(leftPts); 
imagePoints[1].push back(rightPts); // 保 存 角 点 坐标 
std: :cout <<" 图 片 "<< i <<" 处 理 成 功 !"<< endl; 
idx.push back(i); 


) 
cv: :destroyAllWindows(); 
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imagePoints[0].resize(idx.size()); 
imagePoints[1].resize(idx.size()); 
std: :cout <<" 成 功 标 定 的 标定 板 个 数 为 "<< idx. size()««" 序号 分 别 为 : "; 
for(unsigned int i = 0;i < idx. size();++i) 

std: :cout << idx[ i]<<" "; 


// 生 成 物 点 坐标 
vector < vector < Point3f >> objPts( idx. size()); //idx. size 代表 成 功 检测 的 图 像 的 个 数 
for (int y = 0; y < patSize.height; y++) { 
for (int x = 0; x« patSize.width; x++) { 
objPts[0].push back(Point3f((float)x, (float)y, 0) * patLen); 


) 
for (uint i = 1; i< objPts.size(); i++) ( 
objPts[i] = objPts[0]; 


// 双 目 立体 标定 

Mat cameraMatrix[2], distCoeffs[2]; 

vector < Mat > rvecs[2], tvecs[2]; 
cameraMatrix[0] - Mat::eye(3, 3, CV 64F); 
cameraMatrix[1] = Mat::eye(3, 3, CV 64F); 

Mat R, T, E, F; 


cv::calibrateCamera(objPts, imagePoints[0], imgSize, cameraMatrix[0], 
distCoeffs[0], rvecs[0], tvecs[0], CV CALIB FIX K3); 


cv::calibrateCamera(objPts, imagePoints[1], imgSize, cameraMatrix[1], 
distCoeffs[1], rvecs[1], tvecs[1], CV CALIB FIX K3); 


std: :cout << endl ««"Left Camera Matrix: "<< endl << cameraMatrix[0 ]«« endl; 
Std: :cout << endl ««"Right Camera Matrix:"«« endl << cameraMatrix[1]«« endl; 
Std: :cout << endl ««"Left Camera DistCoeffs: "<< endl << distCoeffs[0]«« endl; 
std: :cout << endl ««"Right Camera DistCoeffs: "<< endl << distCoeffs[1]«« endl; 


double rms = stereoCalibrate(objPts, imagePoints[0], imagePoints[1], 
cameraMatrix[0], distCoeffs[0], 
cameraMatrix[1], distCoeffs[1], 
imgSize, R, T, E, F, 
TermCriteria(CV_TERMCRIT_ITER + CV TERMCRIT EPS, 100, 1e- 5)); 
//CV CALIB USE INTRINSIC GUESS) ; 


Std: :cout << endl << end1 <<" 立 体 标定 完成 ! "<< endl ««" done with RMS error = " << rms << endl; 
// 反 向 投影 误差 

std: :cout << endl <<"Left Camera Matrix: "<< endl << cameraMatrix[0]<< endl; 

std: :cout << endl <<"Right Camera Matrix:"«« endl << cameraMatrix[1]<< endl; 

std: :cout << endl ««"Left Camera DistCoeffs: "<< endl << distCoeffs[0]«« endl; 

std: :cout << endl ««"Right Camera DistCoeffs: "<< endl << distCoeffs[1]«« endl; 


120 


5) 


CUDA 与 OpenCV 并 行 图 像 处 理 实战 


// 标 定 精度 检测 
// 通 过 检查 图 像 上 点 与 另 一 幅 图 像 的 极 线 的 距离 来 评价 标定 的 精度 .为 了 实现 这 个 目的 ,使 用 
undistortPoints 来 对 原始 点 做 去 畸变 的 处 理 
// 随 后 使 用 computeCorrespondEpilines 来 计算 极 线 , 计 算 点 和 线 的 点 积 . 累计 的 绝对 误差 形成 
了 误差 
std: :cout << endl <<" 极 线 计算 .… 误差 计算 .… "; 
double err = 0; 
int npoints = 0; 
vector < Vec3f > lines[2]; 
for(unsigned int i = 0; i< idx.size(); i++) 
$ 
int npt = (int)imagePoints[0][i].size(); // 角 点 个 数 
Mat imgpt[2]; 
for(intk = 0; k « 2; k++) 
{ 
imgpt[k] = Mat(imagePoints[k][i]); 
undistortPoints(imgpt[k], imgpt[k], cameraMatrix[k], distCoeffs[k], Mat(), 
cameraMatrix[k]); / [Wi 2c 
computeCorrespondEpilines(imgpt[k], k * 1, E, lines[k]); // 计 算 极 线 
) 
for(int j = 0; j< npt; j++) 
{ 
double errij = fabs(imagePoints[0][i][j].x * lines[1][j][0] + 
imagePoints[0][i][j].y * lines[1][j][1] + lines[1][j][2]) + 
fabs(imagePoints[1][i][j].x* lines[0][j][0] + 
imagePoints[1][i][j].y * lines[0][ 3][1] + lines[0][j][2]); 
err += errij; // 累 计 误差 
} 
npoints += npt; 
} 
std: :cout << " 平均 误差 average reprojection err = " << err/npoints << endl; 


// 平 均 误差 
// 相 机 内 参数 和 畸变 系数 写 人 文件 


FileStorage fs(intrinsic filename, CV STORAGE WRITE); 
if(fs. isOpened()) 
t 
fs «« "M1" «« caneraMatrix[0] «« "D1" «« distCoeffs[0] «« 
"M2" << cameraMatrix[1] << "D2" << distCoeffs[1]; 
fs. release(); 
i 
else 
std: :cout << "Error: can not save the intrinsic parameters Wn"; 


// 立 体 矫正 BOUGUET'S METHOD 
Mat R1, R2, P1, P2, Q; 
Rect validRoi[2]; 


cv::stereoRectify(cameraMatrix[0], distCoeffs[0], 
cameraMatrix[1], distCoeffs[1], 
imgSize, R, T, R1, R2, P1, P2, Q, 
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CALIB ZERO DISPARITY, 1, imgSize, &validRoi[0], &validRoi[1]); 


fs. open(extrinsic filename, CV_STORAGE WRITE); 
if( fs.isOpened() ) 
t 
fs << "R" << R << "T" << T << "R1" << R1 << "R2" << R2 << "P1" << P1 << "P2" << P2 << "Q" << Q; 
fs.release(); 


) 
else 
std: :cout << "Error: can not save the intrinsic parameters Wn" ; 


Std: :cout <<" 双 目标 定 完成 .…"<< endl; 
printf("\n 输入 任意 字母 进行 下 一 步 \n"); 
getchar() ;getchar() 

return 0; 


// 双 目 立体 匹配 和 测量 
int stereoMatch(int picNum, 
String intrinsic filename = "intrinsics. yml", 


String extrinsic filename = "extrinsics. yml", 
bool no display = false, 

string point cloud filename = "$f H /point3D. txt" 
) 


// 获 取 待 处 理 的 左 、 右 相机 图 像 

int color mode = 0; 

Mat rawImg = imread(fileList[picNum], color mode); // 待 处 理 图 像 grayScale 

if(rawImg. empty()){ 
std: :cout <<"In Function stereoMatch, the Image is empty..."<< endl; 
return 0; 

} 

// 截 取 

Rect leftRect(0, 0, imgSize.width, imgSize. height); 

Rect rightRect(imgSize. width, 0, imgSize.width, imgSize. height); 


Mat imgl = rawIng(leftRect); // 切 分 得 到 的 左 原始 图 像 
Mat img2 = rawImg(rightRect); // 切 分 得 到 的 右 原始 图 像 
// 图 像 根据 比例 缩放 


if(ingScale t- 1.f){ 
Mat templ, temp2; 
int method - imgScale «1 ? INTER AREA : INTER CUBIC; 
resize(imgl, templ, Size(), imgScale, imgScale, method); 
imgl - templ; 
resize(img2, temp2, Size(), imgScale, imgScale, method); 
img2 - temp2; 
} 
imwrite(" 输 出 /原始 左 图 像 . jpg" , imgl); 
imwrite(" 输 出 /原始 右 图 像 . jpg"，img2); 
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Size img size = imgl.size(); 


//reading intrinsic parameters 
FileStorage fs(intrinsic filename, CV STORAGE READ); 
if(!fs.isOpened()) 


t 
std: :cout ««"Failed to open file "<< intrinsic filename << endl; 
return - 1; 
) 
Mat M1, D1, M2, D2; // 左 , 右 相机 的 内 参数 矩阵 和 畸变 系数 


fs["M1"] >> M1; 

fs["D1"] >> D1; 
fs["M2"] >> M2; 
fs["D2"] >> D2; 


Mi * = imgScale; 
M2 * - imgScale; 


// 读 取 双 目 相机 的 立体 矫正 参数 
fs.open(extrinsic filename, CV STORAGE READ); 
if(!fs. isOpened()) 


X 
std: :cout ««"Failed to open file "<< extrinsic filename << endl; 
return - 1; 
) 
// 立 体 矫正 
Rect roil, roi2; 
Mat Q; 


Mat R, T, R1, P1, R2, P2; 
fs["R"] 5> B; 
Esp" mq m 


//Mpha 取 值 为 - 1 iif, Opencv 自动 进行 缩放 和 平移 
cv::StereoRectify( M1, D1, M2, D2, img size, R, T, Rl, R2, P1, P2, Q, CALIB ZERO _ 
DISPARITY, —1, img size, &roil, &roi2 ); 


// 获 取 两 相机 的 矫正 映射 

Mat mapll, mapl2, map21, map22; 

initUndistortRectifyMap(Ml, Dl, Rl, Pl, img size, CV 16SC2, mapll, mapi2); 
initUndistortRectifyMap(M2, D2, R2, P2, img size, CV 16SC2, map21, map22); 


// 矫 正 原始 图 像 
Mat imglr, img2r; 
remap(imgl, imglr, mapll, mapl2, INTER LINEAR); 
remap(img2, img2r, map21, map22, INTER LINEAR); 
imgl = imglr; 
img2 = ing2r; 


// 初 始 化 stereoBMstate 结构 体 
StereoBM bm; 


int unitDisparity = 15; //40 
int numberOfDisparities - unitDisparity * 16; 
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bm. state 一 > roil = roil; 
bm. state 一 > roi2 = roi2; 
bm.state-» preFilterCap = 13; 
bm. state — > SADWindowSize = 19; // 窗 口 大 小 
bm. state -> minDisparity = 0; // 确 定 匹配 搜索 从 哪里 开始 ,默认 值 是 0 
bm. state — > numberOfDisparities = numberOfDisparities; 
// 在 该 数值 确定 的 视差 范围 内 进行 搜索 
bm. state- > textureThreshold = 1000; //10  // 保 证 有 足够 的 纹理 以 克服 噪声 
bm. state — > uniquenessRatio = 1; //10 //!! 使 用 匹配 功能 模式 
bm.state- > speckleWindowSize = 200; //13 ”// 检 查 视差 连通 区 域 变 化 度 的 窗口 大 小 , 值 
为 0 时 取消 speckle 检查 
bm. state — speckleRange = 32; //32 // 视 差 变 化 阔 值 , 当 窗口 内 视差 变化 大 于 阔 


值 时 ,该 窗口 内 的 视差 清 零 , int 型 
bm. state- > displ2MaxDiff = -1; 


// 计 算 
Mat disp, disp8; 
int64 t = getTickCount(); 
bm( imgl, img2, disp); 
t 7 getTickCount() - t; 
printf(" 立 体 匹 配 耗 时 : % fmsVn", t * 1000/getTickFrequency()); 


// 将 16 位 带 符号 的 整 型 视差 矩阵 转换 为 8 位 无 符号 的 整 型 矩阵 
disp.convertTo(disp8, CV 8U, 255/(numberOfDisparities * 16.)); 


// 视 差 图 转 为 彩色 图 

Mat vdispRGB = disp8; 

F Gray2Color(disp8, vdispRGB); 

// 将 左 侧 矫正 图 像 与 视差 图 融合 

Mat merge mat = F mergeImg(imgl, disp8); 


saveDisp(" 输 出 /视差 数据 .txt"，disp) 7 


// 显 示 
if(!no display)( 
imshow(" 左 侧 矫正 图 像 "，imgl1) ; 
imwrite(" 输 出 /left_undistortRectify. jpg", imgl); 
imshow(" 右 侧 矫 正 图 像 "，img2); 
imwrite(" 输 出 /right_undistortRectify. jpg", img2); 
imshow(" 视 差 图 "，disp8); 
imwrite(" 输 出 /视差 图 . jpg", disp8); 
imshow(" 视 差 图 _ 彩 色 . jpg", vdispRGB) ; 
imwrite(" 输 出 /视差 图 _ 彩 色 . jpg", vdispRGB); 
imshow( " 左 矫正 图 像 与 视差 图 合并 图 像 "，merge_mat) ; 
imwrite(" 输 出 / 左 矫正 图 像 与 视差 图 合并 图 像 . jpg", nerge mat); 
cv: :waitKey(10000); 
printf("\n 输入 任意 数字 以 继续 \n" ) ; 
getchar() ; 
std: :cout << end1; 
$ 
//cv: :destroyAllWindows( ) ; 


// 视 差 图 转 为 深度 
cout << endl <<" 计 算 深度 映射 .… "<< endl; 
Mat xyz; 
reprojectImageTo3D(disp, xyz, Q, true); // 获 得 深度 图 disp: 720 * 1280 


cv: :destroyAllWindows(); 
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大 时 ,建议 重新 拍摄 图 "E 行 标定 。 
差 


中 ， 


cout << endl <<" 保 存 点 云 坐 标 .. "<< endl; 
saveXYZ(point cloud filename, xyz); 


cout << endl << endl <<" #Ë i "<< endl ««"Press any key to end.. 


getchar(); 
return 0; 

} 

int main() 

{ 


string intrinsic_filename = "intrinsics. yml"; 
string extrinsic_filename = "extrinsics. yml"; 
string point cloud filename = "$f iH /point3D. txt"; 


/* 立体 标定 运行 一 次 即 可 < / 
//initFileList("calib pic", 1, 11); 
//stereoCalibrate(intrinsic filename, extrinsic filename); 


/* 立体 匹配 * / 
initFileList("test pic", 1, 2); 
stereoMatch(0, intrinsic filename, extrinsic filename, false, point cloud filename); 


return 0; 

} 
3. 运行 结果 
运行 结果 如 图 3-76 所 示 , 图 中 有 相机 标定 参数 ,也 有 标定 过 程 中 出 现 的 误差 , 当 误 差 产 
图 3-77 为 标定 过 程 ,图 3-78 为 图 像 的 视 通过 视 
到 可 以 得 到 图 像 的 深度 ,而 最 后 图 像 的 深度 数据 将 会 存储 在 如 图 3-79 所 示 的 . txt 文件 
前 两 列 是 点 云 的 坐 标 ,第 = 列表 示 深 度 , 即 物体 每 个 点 距 摄 像 机 的 距离 。 


83 EMisioStudio2012 codeBinocularVisionBlog1DebuglBinocularVisionBlogl.exe [L= = sj 
[done with RMS error=1.32283 


[Left Camera Matrix: 

[1985.847461845485, 8, 560.1678599985538; 
9, 1986.721719199891, 284.6225090277143; 
9, 8, 11 


Right Camera Matrix: 

11964.519919884486, 8. 621.9623595147623; 
8, 1971.076701264673, 291.7177871777721; 
9, 8, 11 


[Left Camera DistCoeff 


[-0.4282514419263879, 0.0974229794271414, B.009543108501302765, 0.80086644851909| 


Right Camera DistCoeffs: 
[-8.2352587448104044, -0.7331333087376591, 0.0009731461466358986, 0.010018007280| 


平均 误差 average reprojection err = 2.31857 


图 3-76 标定 结果 
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(Ñ pointapba -记事 本 Le sss) 


XHA SAE fíct(O) SEV #m(H) 
40.4611 -44. 5504 296.759 < 
41.4406 -45. 0984 300.41 a 
41.6525 -45.1539 300. 78 
41.8133 -45. 1539 300. 78 
42.0258 -45. 2096 301.151 
42.2389 -45.2654 301.522 
42.4001 -45.2654 301.522 
42.5613 -45.2654 301.522 
42.6173 -45.1539 300.78 
42. 7255 -45.0984 300.41 
42.9389 -45.1539 300.78 
43.2061 -45.2654 301.522 
44.2412 -46. 1775 307. 593| 
44.2385 -46. 0037 306.44 
44.6826 -46.2941 308.375 
44.5662 -46.0037 306.44 
44.899 -46.1775 307.598 
44.8938 -46. 0037 306.44 
44.3893 -45.3213 301.895 
44.4408 -45.2096 301.151 
11.3031 -10.5087 70. 0009 
11.334 -10.5027 69.9608 
11.3649 -10.4967 69.9207 
11.4055 -10.4997 69.9407 
11.4462 -10.5027 69.9608 
11.4803 -10.4997 69.9407 
15.5349 -14.1618 94.3349 
15.5793 -14.1564 94.2985 
15.6297 -14.1564 94.2985 
15.6801 -14.1564 94.2985 


图 3-79 深度 数据 
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本 章 主 要 介绍 了 几 个 常用 的 图 像 处 理 算法 并 通过 OpenCV 进行 了 实现 。3. 1 节 主 要 介 
HT OpenCV 最 常用 的 Mat 类 和 基础 的 输入 输出 函数 。3. 2 节 介绍 了 反 向 算法 ,并 通过 反 
向 算法 对 OpenCV 常用 的 函数 和 处 理 方式 进行 了 解析 ,为 后 续 的 学 习 扫 清 障碍 。3. 3 WE 
要 介绍 了 OpenCV 处 理 图 像 时 常用 的 addweightO PRG, 3.4 节 介 绍 了 三 种 常见 的 图 像 去 
噪 算法 ,其 中 均值 滤波 和 高 斯 滤波 采用 了 OpenCV 自 带 的 函数 。3. 5 节 主 要 介绍 了 机 器 视 
觉 中 比较 热门 的 双 目 视觉 技术 ,首先 介绍 了 双 目 视觉 的 基本 原理 ,之 后 介绍 了 如 何 使 用 
OpenCV 实现 双 目 摄像 机 的 标定 ,最 后 使 用 OpenCV 实现 了 双 目 视觉 测试 物体 的 深度 。 
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GPU 和 CUDA 的 介绍 和 应 用 


相信 读者 通过 第 1 章 的 阅读 可 以 对 GPU 和 CUDA 有 了 大 体 了 解 ,本 章 将 详细 介绍 
GPU 的 架构 和 内 部 结构 .如 何 搭建 CUDA 环境 .CUDA C 语言 的 最 小 扩展 集 、CUDA 的 线 
程 层 次 和 GPU 的 寄存 器 等 。 


4.1 CUDA 的 介绍 


统一 计算 设备 架构 (Compute Unified Device Architecture. CUDA) 是 NVIDIA( 英 伟 
达 ) 公 司 在 2007 年 6 月 提出 的 一 种 全 新 的 并 行 计算 架构 ,后 发 展 成 一 款 独 立 的 软件 , 它 
可 以 基于 硬件 设备 GPU 实现 数据 的 并 行 化 处 理 。CUDA 是 使 原本 只 能 处 理 图 像 显示 数 
据 的 GPU 可 以 通过 CUDA 处 理 各 种 数据 ,分 担 CPU 的 工作 量 ,实现 GPU-CPU 异 构 共 同 
处 理 数据 ,最 终 实 现 计算 机 硬件 统一 化 处 理 数据 的 体系 。 如 图 4-1 所 示 为 CUDA 的 
商标 。 

CUDA 相当 于 开发 平台 上 的 一 个 函数 库 , 在 平台 上 安装 这 个 库 即 可 让 GPU 工作 。 它 
好 比 在 计算 机 上 安装 一 个 Visual Studio 编译 平台 ,调用 自 带 的 库 即 可 编写 C++( 如 图 4-2 所 
AO ,或 者 在 计算 机 上 安装 Eclipse 编译 平台 ,调用 自身 的 库 即 可 编写 Java( 如 图 4-3 所 示 )。 
同 理 ,在 使 用 GPU 之 前 需要 在 计算 机 上 先 安装 C++ 编译 平台 Visual Studio, 然 后 在 这 个 平 
台 上 安装 CUDA ,这 样 就 可 以 让 GPU 从 原本 图 像 处 理工 作 中 解放 出 来 ,与 CPU 实现 异 构 ， 
对 数据 进行 处 理 , 二 者 共同 工作 ,如 图 4-4 所 示 。 


NVIDIA. 


CUDA = 
° Visio Studio 


CPU 


图 4-1 CUDA 商标 图 4-2 VS 编写 C++ 
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CUDA C++ 
Java CUDA ceu] 
Eclipse Visio Studio 
CPU CPU 
图 4-3 Eclipse 编写 Java 4-4 VS 和 CUDA 了 驱动 GPU 


CUDA 一 经 推出 便 受 到 极 大 的 欢迎 ,并 且 迅 速 在 各 个 领域 中 取得 了 应 用 。 

在 消费 级 市 场 上 ,几乎 每 一 款 重要 的 消费 级 视频 应 用 程序 都 已 经 使 用 CUDA 加 速 或 很 
快 将 会 利用 CUDA 来 加 速 ,其 中 不 乏 Elemental Technologies 公司 、 MotionDSP 公司 以 及 
LoiLo 公司 的 产品 。 大 家 耳熟能详 的 阿里 云 技术 ,也 采用 了 CUDA 的 GPU 加 速 。 在 互联 
网 市 场 上 ,CUDA 已 经 被 大 量 使 用 。 

在 科研 界 ,CUDA 一 直 受 到 热 捧 。 例 如 ,CUDA 现 已 能 够 对 AMBER 进行 加 速 。AMBER 
是 一 款 分 子 动力 学 模拟 程序 ,全 世界 在 学 术 界 与 制药 企业 中 有 超过 60 000 名 研究 人 员 使 用 
该 程序 来 加 速 新 药 的 探索 工作 。 

在 金融 市 场 ,Numerix 以 及 CompatibL 针对 一 款 全 新 的 对 手 风 险 应 用 程序 发 布 了 
“CUDA 支持 ?并 取得 了 18 倍速 度 提 升 。Numerix 被 近 400 家 金融 机 构 广 泛 使 用 。 

CUDA 的 广泛 应 用 造就 了 GPU 计算 专用 Tesla GPU 的 崛起 。 全 球 财富 五 百 强 企业 现 
在 已 经 安装 了 700 多 个 GPU 集群 ,这 些 企 业 涉 及 各 个 领域 ,例如 能 源 领 域 的 斯 伦 贝 谢 与 雪 
佛 龙 ,以 及 银行 业 的 法 国 巴 黎 银 行 。 

支持 CUDA 的 硬件 设备 有 NVIDIA 的 GeForce 系列 IJON Tesla 等 ,并 且 CUDA ME 
能 在 Windows, Linux 和 Mac 三 种 系统 上 完美 运行 。 目 前 ,CUDA 系列 的 最 高 版 本 是 
CUDA 8.0。 

本 书 在 使 用 CUDA 时 选用 的 是 CUDA 6. 5, 不 过 下 载 时 需要 注意 CUDA 的 版 本 ,在 
CUDA 6. 5 及 以 前 的 版 本 会 有 笔记 本 (notebook) 版 本 和 台式 机 两 种 版 本 ,在 CUDA 7.0 以 
后 则 没有 这 种 分 类 了 ,所 以 下 载 时 一 定 注意 版 本 型 号 。 


4.2 GPU 的 内 部 结构 


了 解 GPU 内 部 结构 对 提高 GPU 的 利用 率 非 常 重要 ,并 且 对 后 续 学 习 如 何 开发 GPU 
会 有 巨大 的 帮助 。 


4.2.1 GPU 内 部 结构 的 简单 介绍 


GPU 内 部 结构 原理 图 比较 抽象 ,为 帮助 没有 任何 
GPU 基础 的 读者 更 好 地 理解 该 内 容 , 本 节 先 做 一 些 简单 
说 明 。 已 有 相关 基础 知识 的 读者 ,可 以 直接 跳 过 本 节 , 进 ”|| 线程 | | 线程 | | 线程 
入 4.2.2 节 进 行 具体 内 部 结构 的 学 习 。 线程 线程 线程 

GPU 是 由 无 数 个 简单 的 计算 节点 高 度 集成 的 一 个 芯 
片 ,这 些 节 点 之 间 互 不 影响 ,独立 地 进行 浮 点 计算 ,通常 称 
这 些 节点 为 线程 (thread) ,如 图 4-5 所 示 。 4-5 GPU 内 部 结构 (简单 版 ) 


GPU 


线程 线程 线程 


线程 线程 线程 


线程 线程 
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每 个 线程 之 间 相互 不 影响 ,所 有 线程 集成 在 一 起 就 形成 了 一 块 完整 的 GPU。 其 中 ,一 
定数 量 的 线程 集合 在 一 起 成 为 一 个 “线程 块 "(block) ,一 定数 量 的 线程 块 聚集 在 一 起 成 为 
“线程 网 格 ”, 通 常情 况 下 会 将 其 简称 为 “线程 格 ”(grid) ,如 图 4-6 所 示 为 GPU 内 部 结构 简 
图 ,实际 上 每 个 线程 块 包含 的 线程 远 远 不 止 这 些 ,线程 格 也 不 是 只 包含 这 两 个 线程 块 。 


线程 格 (grid) 线程 格 (grid) 
线程 块 (block) 线程 块 (block) 


线程 块 (block; 线程 块 (block) 


图 4-6 GPU 内 部 结构 图 


这 些 线程 是 如 何 使 用 的 ? 下 面 通过 一 个 简单 的 例子 进行 说 明 。 现 在 有 两 个 数组 ,每 个 
数组 中 都 有 八 个 数字 ,还 有 一 个 空 数组 如 下 : 

a= [0,1,2,3,4,5,6,7]; 

b=[10,11,12,13,14,15,16,17]; 

c= []; 
要 求 将 每 组 数据 的 对 应 位 置 的 两 个 数字 相 加 并 存在 数组 c 的 对 应 位 置 中 。 因 为 每 一 个 线程 
都 有 单独 的 计算 能 力 ,所 以 让 每 一 个 线程 都 计算 其 中 一 部 分 , 即 每 一 个 线程 单独 完成 一 次 加 
法 运算 ,那么 现在 准备 启动 八 个 线程 ,完成 这 次 计算 。 

可 以 在 一 个 线程 格 (grid) 中 取 其 中 一 个 线程 块 (block) ,并 在 该 线程 格 中 启动 八 个 线 
程 ,每 个 线程 进行 一 次 加 法 计算 ,相互 之 间 没 有 影响 ,进行 的 模式 如 图 4-7 所 示 。 


线程 块 (block) 


1+11 2+12 


5415 616 


图 4-7 计算 示意 图 1 


当然 ,如 果 愿 意 , 也 可 以 使 用 同一 个 线程 格 中 的 两 个 线程 块 里 的 线程 来 做 这 次 计算 , 计 
算 效 果 如 图 4-8 所 示 。 

同样 ,在 线程 够 用 情况 下 ,甚至 可 以 启用 多 个 线程 格 ,每 个 线程 格 中 启动 一 定数 量 的 线 
程 ,来 完成 这 次 计算 ,但 是 要 求 每 个 线程 块 中 启动 的 线程 数量 是 相同 的 。 比 如 选用 两 个 线程 
格 ,每 个 线程 格 开启 两 个 线程 块 ,每 个 线程 块 中 开启 两 个 线程 来 计算 ,如 图 4-9 所 示 。 
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线程 格 (grid) 


线程 块 (block) 


1+11 2+12 


线程 块 (block) 
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图 4-8 计算 示意 图 2 


线程 格 (grid) 线程 格 (grid) 
线程 块 (block) 线程 块 (block) 


1+11 545 


线程 块 (block 线程 块 (block) 


3+13 7+17 


图 4-9 计算 示意 图 3 


在 分 配 线程 时 ,每 一 次 只 能 确定 开启 多 少 个 线程 ,比如 在 前 面 的 例子 中 ,如 果 选 择 开 启 
四 个 线程 块 ,那么 仅 能 计算 得 到 前 四 项 。 如 果 开 启 了 很 多 线程 块 ,不 但 会 造成 资源 浪费 ,还 
会 将 原本 存在 寄存 器 中 的 数据 放 在 缓存 中 ,降低 了 使 用 效率 ,增加 了 处 理 时 间 。 所 以 通常 情 
况 下 ,会 根据 实际 情况 合理 地 分 配 线程 实现 最 大 利用 率 。 

以 上 介绍 的 都 是 一 些 简单 的 内 部 结构 和 分 配 线程 方式 , 仅 能 作为 GPU 的 基础 入 门 知 
识 , 却 不 足以 支撑 GPU 的 开发 ,因为 有 效 的 GPU 开发 需要 更 系统 的 、 更 细节 的 GPU 内 部 
结构 信息 ,这些 内 容 将 在 后 续 章 节 中 介绍 。 不 过 相信 GPU 初学 者 经 过 本 节 的 学 习 会 更 容 
易 理解 4.2.2 节 的 内 容 。 


4.2.2 GPU 的 架构 
本 节 将 详细 介绍 NVIDIA 公司 的 GPU 架构 。 在 NVIDIA 公司 的 GPU 发 展 过 程 中 ， 
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多 种 不 同 架 构 被 先后 采用 ,本 节 将 讲解 其 中 几 种 比较 典型 的 架构 5 。 

1. G80 架构 

G80 架构 是 NVIDIA 公司 在 2006 年 11 月 推出 的 第 一 批 统一 架构 GPU ,其 整合 了 
GeForce 8800 GTX 核心 ,768MB GDDR3 高 速 内 存 以 及 128 个 流 处 理 器 (Stream Processor 
SP) ,其 结构 如 图 4-10 所 示 


9. = T: A A P e e A 
GU pla . oq 
Host 
Assembler Sel Rstr / ZCull. 
D Vtx Thread Issue Geom Thread issue Pixel Thread issue 


Thread Processor 


FB FB FB FB FB FB 


图 4-10 G80 架构 


统一 结构 中 的 基本 单元 被 称 为 流 多 处 理 器 (Streaming Multiprocessor, SM)。 流 多 处 

理 器 是 GPU 中 最 底层 的 独立 硬件 结构 ,可 以 将 其 看 成 一 个 SIMD 处 理 单 元 。G80 架构 
共有 16 个 流 多 处 理 器 ,每 个 流 多 处 理 器 又 包括 八 个 流 处 理 器 (Streaming Processor,SP) 和 
两 个 特殊 处 理 单 元 (Special Function Unit,SFU)。 此 外 ,每 个 流 eiie 器 都 包含 一 个 16KB 

大 小 的 共享 存储 器 (Shared Memory) 和 8192 个 32 位 寄存 器 ,其 详细 结构 in 4-11 所 示 


Inside a Stream Multiprocessor (SM) 


* Scalar register-based ISA 


* Multithreaded Instruction Unit 
* Up to 1024 concurrent threads 
* Hardware thread scheduling 
* In-order issue 


8 SP: Thread Processors 
* IEEE 754 32-bit floating point 
* 32-bit and 64-bit integer 
» 16K 32-bit registers 


2 SFU: Special Function Units 
* sin, cos, log, exp 


Double Precision Unit 
* IEEE 754 64-bit floating point 
* Fused multiply-add 


16KB Shared Memory 


Æ 4-11 G80 详细 结构 
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GPU 中 每 个 流 多 处 理 器 都 支持 成 千 上 万 的 线程 并 行 执行 ,每 次 kernel 函数 启动 之 后 ， 
线程 (thread) 会 被 分 配 到 对 应 的 流 多 处 理 器 中 执行 。 虽然 大 量 的 线程 会 被 分 配 到 不 同 的 
流 多 处 理 器 ,但 是 同一 个 线程 块 (block) 中 的 线程 一 定 会 在 同一 个 流 多 处 理 器 中 被 并 行 
执行 。 

而 使 用 开发 GPU 的 CUDA 则 采用 了 SIMT(Single Instruction Multiple Thread) 架 构 
来 管理 和 执行 这 些 线程 。 这 些 线程 以 32 个 为 一 组 ,构成 了 一 个 单元 ,这 些 单元 称 为 warpo 
warp 中 所 有 的 线程 并 行 执行 同一 个 指令 ,每 个 线程 拥有 它 自己 的 状态 寄存 器 ,并 且 用 该 线 
程 内 部 的 独 有 数据 执行 指令 。 

但 是 这 种 执行 机 制 很 容易 造成 执行 的 速度 不 一 致 .其 原因 是 大 部 分 的 线程 只 是 多 辑 上 
的 并 行 , 并 不 是 所 有 的 线程 都 可 以 在 物理 上 同时 执行 。 因 此 ,如 何 合理 地 同步 所 有 的 线程 也 
是 开发 中 需要 注意 的 一 个 重点 。 

2. GT200 架构 

GT200 架构 是 NVIDIA 公司 推出 的 第 二 批 统一 架构 GPU ,该 架构 在 G80 的 基础 上 做 
了 拓展 ,主体 结构 很 相似 ,但 其 功能 要 比 G80 架构 增强 了 一 些 , 可 以 理解 为 G80 的 升级 版 ， 
其 升级 的 主要 部 分 为 : 

° 流 多 处 理 器 的 数目 由 128 个 增加 到 240 个 ; 

* 每 个 TPC 所 包含 的 流 多 处 理 器 数量 由 两 个 增加 到 三 个 ; 

。 每 个 流 多 处 理 器 中 所 包含 的 寄存 器 数目 由 8192 个 增加 到 16 384 +; 

。 每 个 流 多 处 理 器 中 添加 了 一 个 双 精 度 浮 ， 算 单元 ; 

。 前 端 总 线 位 宽 由 328 位 增加 到 512 位 ; 

。 带宽 由 86GB/s 增加 到 142GB/s; 

。 与 主机 端的 数据 传输 接口 由 PCIe 1.0 x 16 提升 为 PCIe 2.0 x 16, 

GT200 的 架构 图 如 图 4-12 所 示 。 
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图 4-12 GT200 架构 
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3. Fermi 架构 
Fermi 架构 是 NVIDIA 公司 推出 的 第 三 批 统一 架构 GPU, 可 以 说 是 第 一 个 完整 的 


GPU 计算 架构 。 相 比 于 G80 和 GT200, 该 架构 发 生 了 较 大 的 改变 ,其 浮 点 计算 效率 大 幅 提 
升 ,使 整个 GPU 得 到 了 质 的 飞越 。 其 架构 如 图 4-13 所 示 。 


n 
$ 


图 4-13 Fermi 架构 


Fermi 架构 的 工作 模式 和 主要 提升 如 下 : 


4. 


512 个 加 速 器 核心 (accelerator core) BI CUDA core; 

16 个 流 多 处 理 器 ,每 个 流 多 处 理 器 包含 了 32 个 CUDA core; 

6 个 384 位 的 GDDR5 DRAM; 

GigaThread engine 将 线程 和 线程 块 分 配给 流 多 处 理 器 调度 ; 

每 个 流 多 处 理 器 有 16 个 读 取 /存储 (load/store) 单 元 ,允许 每 个 时 钟 脉冲 (clock 
cycle) 为 16 个 线程 计算 原 地 址 和 目的 地 址 ; 

每 个 流 多 处 理 器 包含 两 个 Warp Scheduler 和 两 个 指令 发 送 单元 (Instruction 
Dispatch Unit) ,每 个 线程 块 被 分 配 到 一 个 流 多 处 理 器 中 ,所 有 该 线程 块 中 的 线程 被 
分 配 到 不 同 的 warp 中 ; 

每 个 流 多 处 理 器 同时 可 处 理 48 个 warp. 

Kepler 架构 


Kepler 架构 是 NVIDIA 公司 推出 的 第 四 批 统一 架构 GPU, 相 比 于 Fermi, 其 架构 效率 
更 高 ,性 能 更 好 ,架构 图 如 图 4-14 所 示 。 

Kepler 架构 的 主要 提升 如 下 : 

。 提升 到 15 个 流 多 处 理 器 ; 

。 有 6 个 64 位 内 存 控制 器 ; 

° £ 192 个 单 精度 CUDA corse、64 个 双 精 度 单元 32 个 特殊 处 理 单元 、32 个 读 取 / 存 


储 单元 ; 
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图 4-14 Kepler 架构 


。 寄存 器 组 (Register File) 增 加 到 64KB; 

* 每 个 SM 最 多 可 以 同时 调度 64 个 warp, 共 计 2048 个 线程 。 

随 着 GPU 的 日 益 发 展 ,更 新 的 架构 被 不 断 地 设计 出 来 ,NVIDIA 公司 的 老 对 手 AMD 
公司 也 推出 了 很 多 优秀 的 架构 ,并 且 每 一 个 新 架构 都 会 使 CPU 的 功能 提高 很 多 。 这 促使 
GPU 开发 者 不 断 更 新 对 GPU 架构 内 部 结构 和 工作 原理 的 了 解 ,以 便 在 开发 中 更 好 地 优化 
程序 。 


4.2.3 常见 GPU 的 挑选 


GPU 越 来 越 火 , 带 来 的 不 只 是 GPU 的 更 新 换代 ,还 有 对 GPU 性 能 五 花 八 门 的 解释 ， 
越 来 越 多 的 说 法 让 人 眼花 练 乱 ,对 于 一 个 新 人 来 说 如 何 选 择 合适 的 GPU 也 是 一 个 比较 难 
的 问题 。 本 节 将 针对 NVIDIA 公司 近 几 年 推出 的 GPU 进行 简单 的 性 能 介绍 ,为 读者 挑选 
合适 的 GPU 提供 参考 。 

有 很 多 因素 会 影响 GPU 的 运行 速度 ,比如 CUDA 核 . 时 钟 的 速度 .RAM 的 大 小 ,但 是 
这 些 带 来 的 影响 比较 微弱 ,而 真正 最 影响 速度 的 则 是 显存 的 带宽 ,所 以 选择 GPU 时 可 以 用 
带宽 来 衡量 一 下 GPU 的 速度 。 图 4-15 为 NVIDIA 系列 GPU 和 常见 CPU 的 带宽 比较 。 

在 芯片 架构 相同 时 ,带宽 可 以 直接 进行 对 比 。 比 如 ,Pascal 显卡 GTX 1080 和 1070 的 
性 能 对 比 ,只 需 看 显存 带宽 。GTX 1080(320GB/s) 比 GTX 1070(256GB/s) 快 25%。 但 是 
芯片 架构 不 同 , 则 不 能 直接 对 比 ,比如 Pascal 和 Maxwell(GTX 1080 和 Titan X) ,不 同 生产 
工艺 下 带宽 相同 ,但 不 能 保证 二 者 运行 的 效果 完全 一 样 。 

不 同 应 用 领域 考虑 GPU 的 种 类 也 不 相同 ,比如 近 几 年 很 火热 的 深度 学 习 , 其 关注 点 在 
于 GPU 是 否 兼 容 cuDNN。 绝 大 多 数 深度 学 习 要 用 cuDNN 来 做 卷 积 ,因此 Kepler 或 更 好 
的 GPU, 即 GTX 600 系列 或 以 上 效果 会 更 好 。 如 果 仅 仅 通过 深度 学 习 训 练 速度 来 判断 
GPU 的 强 弱 , 则 可 以 参考 图 4-16。 
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理论 值 GBAs 
3⁄0 GeForce 780 Ti 
330 
300 «em CPU Tesla K40 


270 
| . = GeForce GPU Tesla K20X 


240 j|— ——w- Tesla GPU 一 
210 — 一 一 
180 GeForce GTX 480 
GeForce GTX 680 
150 Tesla M2090 
> GeForce GTX 280 
iz Tesla C2050 


90 . GeForce 8800 GTX e u u 
Tesla C1060 Ivy Bridge 
60GeEoree 7800 GTX Sandy Bridge. 9 
GeForce 6800 GT Bloomfield 
30 | 
GeForce FX 5900 Westmere 


图 4-15 GPU 与 CPU 带宽 比较 


s AWS G2 

= AWS P2 

= GTX 1050 Ti 
8 GTX Titan 

= GTX 970 

* GTX 980 

m GTX 1060 

= GTX 980 Ti 
8 GTX Titan X 
mGTX 1070 

" GTX 1080 

* NVIDIA Titan X Pascal 
mGTX 1080 Ti 
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图 4-16 深度 学 习 GPU 处 理 速度 


在 做 并 行 图 像 处 理 时 ,也 可 以 参考 深度 学 习 的 处 理 速度 来 合理 地 挑选 GPU 的 种 类 和 
型 号 。 总 结 如 下 : 

。 并 行 处 理 能 力 强 : Tesla K40/K80; 

* 综合 能 力 强 : Titan X Pascal .GTX 1080Ti; 

* 性 价 比 高 : GTX 1060; 

。 普遍 使 用 : GTX 600 及 以 上 。 
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4.3 并行 处 理 介绍 


并 行 处 理 , 顾 名 思 义 ,在 同一 时 刻 同时 处 理 多 件 事情 ,比如 在 语音 通话 时 记录 数据 同时 
处 理 相关 文件 。 并 行 处 理 的 主要 目的 是 节省 解决 复杂 问题 的 时 间 。 对 于 计算 机 ,并 行 处 理 
同样 是 指 计算 机 系统 能 同时 执行 两 个 或 更 多 个 任务 。 

在 计算 机 中 ,传统 的 处 理 方式 是 使 用 CPU 来 做 所 有 的 工作 ,但 CPU 是 传统 的 串 行 处 
理 ,虽然 CPU 的 处 理 能 力 已 经 发 展 得 非常 强大 ,但 是 仍然 不 能 摆脱 串 行 处 理 的 瓶颈 :“ 当 计 
算 量 足够 大 时 ,仍然 需要 大 量 的 时 间 。” 就 好 比 是 一 个 生产 线 上 的 熟练 工人 ,即便 处 理 速度 非 
常 快 ,也 无 法 独自 完成 生产 线 上 成 千 上 万 的 产品 。 

这 时 人 们 突然 发 现 了 每 个 计算 机 中 都 有 的 GPU。 随 着 一 代 又 一 代 的 升级 ,CPU 已 经 
有 了 非常 强大 的 浮 点 型 数据 处 理 能 力 。 但 是 不 是 所 有 的 数据 都 可 以 使 用 GPU 进行 处 理 ， 
它 只 能 处 理 图 像 数据 ,于 是 开发 人 员 就 想 将 CPU 需要 处 理 的 数据 伪装 成 图 像 信息 并 在 
GPU 中 运行 ,最 后 得 到 了 意 想不到 的 结果 ,处 理 速度 得 到 了 巨大 的 提升 。 

如 果 说 CPU 是 一 个 非常 熟练 的 工人 ,那么 GPU 中 间 就 集成 了 成 千 上 万 的 初级 工人 ， 
每 个 人 仅仅 负责 一 个 产品 ,只 要 给 所 有 的 初级 工人 做 一 个 示范 ,所 有 的 工人 ,就 都 可 以 模仿 
示范 ,做 好 手中 的 那 件 商品 ,最 后 再 把 所 有 的 商品 交 给 公司 即 可 完成 任务 ,如 图 4-17 和 图 4-18 
所 示 。 


GPU 


ftii 
ftti 
ttt 


图 4-17 CPU 图 4-18 GPU 


使 用 程序 打 一 个 比方 ,现在 想 把 两 个 一 维 向 量 a 和 b 中 的 数据 进行 求 和 ,并 在 屏幕 中 显 
示 出 来 ,那么 CPU 中 的 处 理 方 式 就 是 将 两 个 向 量 中 的 数据 依次 进行 求 和 并 显示 出 来 ,如 
图 4-19 所 示 。 

a2[1,2,3,4,5]; 

b-[6,7,8,9,10]; 

而 对 于 GPU ,这 个 计算 过 程 是 : CPUGAS T. AO £s GPU( 一 群 初级 工人 ) 分 配 好 任务 ， 
然后 GPU 共同 执行 所 有 任务 ,高 效 快捷 地 完成 所 有 任务 后 ,把 结果 返还 给 CPU ,完成 任务 ， 
如 图 4-20 所 示 。 
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输入 数据 
输入 数据 
1+6 —Y 
1 一 一 |CPU 为 GPU 
2+7 分 配 线程 
i GPU 内 部 
348 CPU 工作 146 146 
L PUE 1+6 | [16 orua 
1 1+6 | | 1+6 
5+10 
屏幕 显示 | — L. 
结束 
图 4-19 CPU 串 行 处 理 图 4-20 GPU 并 行 处 理 


使 用 GPU 做 并 行 处 理 的 过 程 ,是 CPU 和 GPU 联动 完成 的 ,可 以 大 幅度 地 提高 计算 速 
度 。 但 并 不 是 所 有 的 程序 都 适合 使 用 GPU 加 速 ,通常 不 适合 GPU 加 速 的 有 如 下 两 种 情况 : 

1. 处 理 的 数据 量 太 小 

在 数据 量 很 小 的 情况 下 仍然 采用 GPU 并 行 处 理 方式 ,会 因为 CPU 给 GPU 分 配 工作 
的 时 间 大 于 CPU 自己 计算 的 时 间 , 导 致 GPU 加 速效 果 不 明 显 , 所 以 这 种 情况 还 不 如 直接 
ib CPU 自己 运行 。 好 比 是 网 上 购买 一 件 产品 ,邮费 的 价格 已 经 超过 了 商品 本 身 的 价格 ,这 
样 的 购买 肯定 不 划算 。 

2. 算法 本 身 不 适合 并 行 处 理 

不 是 所 有 的 算法 都 适合 并 行 处 理 , 如 果 算 法 中 后 续 步 又 的 计算 需要 用 到 之 前 计算 的 结 
果 , 这 种 算法 就 不 适合 采取 并 行 处 理 。 

给 出 一 个 简单 例子 : 现在 需要 将 一 个 空 的 一 维 向 量 aL10] 填 满 数据 ,其 中 a[0]—3. 3€ 
求 后 边 每 个 数据 的 大 小 是 前 一 个 数据 的 2 f. 

如 果 使 用 串 行 处 理 , 可 以 用 循环 直接 写 : 

a[i+ 1] = ali] x 2 

但 是 使 用 GPU 无 法 实现 这 种 处 理 效果 , 仅 使 用 GPU 
处 理 的 效率 会 比 仅 使 用 CPU 的 效率 低 很 多 ,增加 了 
处 理 时 间 ,得 不 偿 失 。 

在 图 像 处 理 中 ,如 何 使 用 GPU 处 理 图 像 呢 ? 图 
像 在 计算 机 中 存储 的 样子 如 图 4-21 所 示 ,像素 点 以 二 
维 矩阵 的 方式 排列 并 存储 。 

通常 情况 下 ,CPU 会 从 上 至 下 、 从 左 向 右 ,对 每 一 
个 像素 点 做 一 次 计算 ,如 图 4-22 所 示 。 而 并 行 处 理 ， 
则 是 先 用 CPU 给 每 个 像素 点 分 配 一 个 线程 .然后 同 
时 对 所 有 的 像素 点 进行 处 理 , 最 终 得 到 处 理 结果 ,如 
图 4-23 所 示 。 4-21 计算 机 识别 图 像 
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图 4-22 CPU 处 理 图 像 数据 


4.4 CUDA 环境 搭建 
4.4.1 CUDA 的 下 载 


4-23 GPU 处 理 图 像 数据 


可 以 直接 去 NVIDIA 公司 的 官网 下 载 CUDA ,地 址 如 下 : 


https: //developer. nvidia. com/cuda-downloads 


进入 这 个 网 址 可 以 直接 看 到 最 新 版 本 的 CUDA 下 载 选 项 ,如 果 想 下 载 从 前 版 本 的 
CUDA ,可 以 在 该 网 页 中 找到 Documentation 版 块 , 单 击 Legacy Toolkits 选项 ,如 图 4-24 


所 示 。 


之 后 进行 版 本 选择 ,选择 需要 下 载 的 CUDA 版 本 即 可 ,如 图 4-25 所 示 。 


Documentation 


CUDA Quick Start Guide 
Release Notes 

EULA 

Online Documentation 
CUDA Toolkit Overview 
Download Checksums 


图 4-24 CUDA 旧版 本 下 载 


Latest Release 
CUDA Toolkit 7.5 (Sept 2015] 


Archived Releases 


CUDA Toolkit 7.0 (March2015] 
CUDA Toolkit 6.0 [April 2014] 
CUDA Toolkit 5.5 [July 2013] 
CUDA Toolkit 5.0 (Oct 2012] 
CUDA Toolkit 4.2 [April 2012] 
CUDA Toolkit 4.1 [Jan 2012] 
CUDA Toolkit 4.0 (May 2011] 
CUDA Toolkit 3.2 (Nov 2010) 
CUDA Toolkit 3.1 (June 2010] 
CUDA Toolkit 3.0 (March 2010) 
OpenCL 1.0 Release [Sept 2009) 
CUDA Toolkit 2.3 [June 2009] 
CUDA Toolkit 2.2 (May 2009] 
CUDA Toolkit 2.1 [Jan 2009] 
CUDA Toolkit 2.0 (Aug 2008] 
CUDA Toolkit 1.1 (Dec 2007) 
CUDA Toolkit 1.0 [June 2007] 


图 4-25 CUDA 旧版 本 型 号 
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以 CUDA 6.5 为 例 ,找到 CUDA 6. 5 一 栏 ,进行 计算 机 系统 版 本 号 的 选择 。 如 图 4-26 
所 示 ,选择 Windows 系统 下 的 Notebook .64-bit 版 本 , 单 击 最 后 的 EXE 即 可 下 载 。 


Linux x86 Linux ARM Mac 0SX 


NOTE: GeForce GTX980 or GTX970 developers, please download CUDA 6.5 
Toolkits with support for your GPU here. 

NVIDIA Nsight"* Visual Studio Edition 4.2 is now available for download in 
the NVIDIA GameWorks Developer Program. 


64-bit 32-bit 
Windows 8.1 Co RE 
Windows 7 Desktop EXE EXE 
Win Server 2012 R2 Desktop EXE 

Win Server 2008 R2 Desktop EXE EXE 
Windows XP Desktop EXE 


图 4-26 CUDA 版 本 和 系统 型 号 选择 


4.4.2 CUDA 的 安装 


CUDA 的 安装 相对 简单 ,不 过 需要 注意 必须 把 所 有 文件 都 装 全 ,不 要 仅 安 装 目前 所 需 
要 的 文件 。 下 面 以 安装 CUDA 6. 5 为 例 进 行 说 明 。 
CD 双击 安装 包 , 进 入 安装 界面 ,解压 的 路 径 可 以 有 中 文 ,在 文件 解压 完成 后 会 自动 进 
入 安装 界面 ,如 图 4-27 所 示 为 CUDA 6.5 安装 包 , 图 4-28 为 CUDA 安装 包 解 压 路 径 。 


Please enter the folder where you want to temporarily extract 
the NVIDIA CUDA Toolkit installer. 1f the folder does not exist, 
it will be created for you. 


Location: 


Low | es | 


图 4-27 CUDA 6.5 安装 包 图 4-28 CUDA 6.5 解压 路 径 


(2) 解压 成 功 后 会 自动 进入 安装 部 分 ,推荐 使 用 CUDA”* 自 定义 (高 级 ) "安装 模式 ,选中 

所 有 选项 , 即 安装 所 有 相关 文件 ,如 图 4-29 和 图 4-30 所 示 。 如 果 选 择 “ 精 简 ( 推 荐 )” 模 式 ， 
可 能 会 导致 部 分 功能 无 法 使 用 。 

(3) 进入 下 一 步 ,在 选项 界面 将 CUDA 安装 在 三 个 文件 夹 中 ,如 图 4-31 所 示 。CUDA 

Tooltik 是 CUDA 的 工具 包 ,CUDA Samples 是 CUDA 自 带 的 例 程 文件 ,GPU Deployment 

Kit 则 是 GPU 软件 开发 包 , 官 网 介绍 它 主 要 是 针对 Tesla?" .GRID fil Quadro?" 三 类 显卡 
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NVIDIA CUDA 


版 本 65 


安装 选项 
@ 许可 协议 LEID ZEE E 


PU instalis al CUDA components and overwrites current 


Display Driver. 


@ SEXO 


Alows you to select the components you want to install 


e 


nvipiA 


图 4-29 CUDA 安装 选项 ( 自 定义 ) 


NVIDIA CUDA 


版 本 65 


自 定义 安装 选项 
@ 许可 协议 


EU] 


UDA Visual Studio integr. 
PU Deployment Kt 


图 4-30 CUDA 安装 全 部 组 件 


设计 的 ,目前 支持 Windows 7, Windows 8, Windows 10 和 Linux 系统 。 


设 定好 具体 的 安装 位 置 后 ,可 以 修改 文件 夹 的 名 字 , 方 便 后 续 添 力 
所 示 为 安装 之 后 的 文件 夹 目录 。 
前 面 提 到 CUDA 7.5 无 法 与 Visual Studio 2015 一 同 使 用 ,原因 


路 径 等 工作 ,如 图 4-32 


是 CUDA 7. 5 无 法 识 


别 VS 2015 ,在 安装 过 程 中 检查 兼容 性 时 就 能 体现 出 来 ,如 图 4-33 所 示 ,使 用 Visual Studio 


2015 需要 下 载 最 新 的 CUDA 8.0。 


(4) 安装 好 CUDA 后 ,需要 进行 环境 配置 等 相关 工作 。 在 “我 的 电脑 ”的 “环境 变量 ”中 


添加 路 径 ,该 操作 已 在 OpenCV 环境 配置 的 部 分 介绍 过 。 


像 处 理 实战 


NVIDIA CUDA 


版 本 65 


[ES 选择 安装 位 置 


@ 许可 协议 CUDA Toolkit 
CAProgram FiesWVDIA GPU Computing 
LES Took CUDAWS S 
CUDA Samples 
E CiProgramDataNVDIA Corporation CUDA 


Samplesv65 
结束 GPU Deployment Kit 
CProgram Files\NVIDIA CorporationGDK 


图 4-31 CUDA 6.5 选择 安装 位 置 


J CUDA Sample 2016/5/18 22:21 
J CUDA ToolTik 2016/4/22 12:16 
|; GPU Deployment Kit 2016/4/22 12:26 X 


图 4-32 CUDA 安装 文件 夹 


NVIDIA 安装 程序 


NVIDIA CUDA 


版 本 nvipiA 


e 系统 检查 A CUDA Visual Studio Integration 


° 许可 协议 No supported version of Visual Studio was found. Some components of the 
"ww CUDA Took will not work property. Please install first to get the full 
functionalty 


B] ! understand, and wish to continue the installation regardiess. 


图 4-33 CUDA 7.5 不 识别 VS 2015 
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通常 情况 下 CUDA 安装 好 后 就 默认 包含 了 一 些 路 径 ,但 仍然 需要 手动 在 环境 变量 中 添 
加 几 条 路 径 ,如 图 4-34 所 示 。 


CUDA BIN PATH D:NCUDA6. 5NCUDA. TooltikMbin 

CUDA LIB PATH D:NCUDA6. 5NCUDA. ToolTikMlibNwin32 

CUDA SDK BIN D:VCUDA6. 5NCUDA. SampleVbinVwin32 

CUDA SDK LIB D:NVCUDA6. 5\CUDA_Sample\common\ lib\win32 
CUDA_SDK_PATH D:\CUDA6. 5\CUDA_Sample\common 


[sese HA » 


Zase HAARE V 


变量 值 
PATH D: \tbb43_201504240ss\include; D: 
TEMP NUSERPROFILEX AppDat aVLocal VT emp 
| TMP WUSERPROFILEX\AppData\Locel\Temp 
| Er 
ETT 编辑 OD misc) J 
系统 变量 G) 


zn 
CUDA BIN PATH — 3CUDA PATHX\bin 
CUDA LIB PATH — D:VCUDAB. SACUDA ToclTikMlib Wing? 
CUDA PATH 
CMA PATH V 5 
| 


图 4-34. CUDA 环境 变量 路 径 


(5) 测试 。 

测试 CUDA 的 环境 是 否 搭建 成 功 可 以 使 用 CMD 进行 测试 

此 处 安装 路 径 为 D:\CUDA6. 5\CUDA_Sample\bin\win64\Release 
打开 CMD, 在 上 述 路 径 中 找到 bandwidthTest. exe 文件 ,如 图 4-35 所 示 。 


BIS EA: C\Windows\system3Z7\CMD.exe TEC 


icrosoft Windows [RÆ 6.1.26011 I 
版 权 所 有 <c> 2809 Microsoft Corporation. (RE BUB. 


1NJsers NZlase?cds 
VD: 

:Ved CUD06.5 

#SCUDñ6.S>cd CUDA_Sanple 

ENCUDAG .5NCUDR_Sampleycd bin 

:\CUDAG .5NCUDR. SanpleNbin?cd win64 

* NCUDA6 5 NCUDA. Sanplewbin win64?cd Release 


:NCUDAS .5NCUDR. Sanple*bin*win64NRe lease?bandwidthTest exem 


图 4-35 测试 CUDA 是 否 安装 成 功 
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运行 bandwidthTest. exe 文件 ,查看 结果 。 运 行 完成 后 还 需要 再 运行 男 外 一 个 名 为 
deviceQuery. exe 的 文件 ,如 果 两 次 的 结果 都 是 PASS. 如 图 4-36 和 图 4-37 所 示 , 则 说 明 整 
个 CUDA 安装 成 功 。 


[D: NCUDR6 .5\CUDA_Sanple \bin\win64\Release>banduidthIest exe 
[CUDA Bandwidth Test] - Starting. 
Running on... 


Device 8: GeForce GI 750M 
Quick Mode 


Host to Device Banduidth, 1 Device(s) 

PINNED Menory Transfers 

| — Transfer Size (Bytes? Banduidth(MB/s 
33554432 3288.5 


Device to Host Bandwidth, 1 Device<s) 

| PINNED Memory Transfers 
Transfer Size (Bytes) Bandvidth(MB/s 
33554432 3256.4 


Device to Device Bandwidth, 1 Device(s) 
PINNED Menory Transfers 
Transfer Size (Bytes) Bandvidth(MB/s » 
33554432 55872.1 


图 4-36 CMD 测试 bandwidthTest. exe 


cupis 


Texture alignment: hytes ^ 

Concurrent copy and kernel execution: s with 1 copy engineCs? 

Run time limit on kernels: 

Integrated GPU sharing Host Memory: 

Support host page-locked memory mapping: 

Alignment requirement for Surfa 

Device has ECC support: abled 

CUDA Device Driver Mode CICC or WDDM): WDDM Windows Display Driver Mo 
TU 

Device supports Unified Addressing CUVA): 

Device PCI Bus ID / PCI location ID: 

Conpute Mode: 

《 Default 《multiple host threads can use : 


ldeviceQuery, CUDA Driver = CUDART, CUDA Driver Uer. 


" Device8 = GeForce GI 750M 
[Result ASS 


D: NCUDR6 .5 NCUDA. Sanple*binNwin64NRelease? 


图 4-37 CMD 测试 deviceQuery. exe 


4.4.3 CUDA 在 VS 中 的 测试 


安装 好 CUDA 后 ,可 以 使 用 Visual Studio 来 进行 环境 测试 。 

D 在 VS 中 新 建 -个 项 目 文件 ,在 “新 建 项 目 ” 窗 口 选择 NVIDIA 中 的 CUDA 6.5, 之 
后 建立 这 个 项 目 文件 即 可 ,如 图 4-38 所 示 

(2) 建立 好 项 目 文件 后 可 以 打开 其 自 带 的 程序 ,在 如 图 4-39 所 示 的 位 
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AME CUDA 65 


A project that uses the CUDA 65 
runtime 


DAVisual Studio 2010 codes - 


图 4-38 创立 CUDA 项 目 文件 


getchar() 防 止 程序 运行 结束 自动 退出 。 如 果 成 功 运行 , 则 说 明 CUDA 可 以 在 VS 平台 上 使 
用 , 即 可 进行 后 续 开发 。 


ee { 
cudabeviceeset failadi*); 


图 4-39 VS 中 的 测试 


4.4.4 CUDA 项 目的 创建 


平时 编写 的 程序 跟 例 子 中 的 模式 不 太一 样 ,需要 将 . cpp 文件 和 . cu 文件 分 开 写 ,因此 必 
须 重 新 配置 项 目 文件 。 这 种 纯 手 动 配置 CUDA 的 过 程 更 加 烦琐 ,但 是 对 一 些 比较 大 的 工程 
或 . cu 文件 较 多 的 工程 ,推荐 使 用 这 种 配置 方式 ,虽然 配置 烦琐 但 条 理 清 晰 。 接 下 来 将 介绍 
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如 何 手 动 创建 并 配置 CUDA 项 目 文件 。 

(D CUDA 关键 字 高 亮 配置 。 

在 正常 的 . cpp 文件 中 ,一些 函 数 名 称 、 变 量 会 显示 为 蓝 色 字体 ,与 其 他 黑色 字体 形成 对 
比 。 但 是 在 编写 CUDA 程序 时 ,需要 在 . cu 或 者 . cuh 文件 中 编写 ,因此 必须 将 . cu 文件 中 
的 C++ 函数 和 部 分 CUDA 函数 调整 为 高 亮 。 这 一 步 的 配置 是 VS 中 的 配置 ,因此 完成 这 一 
步 ,以 后 其 他 CUDA 程序 都 不 再 需要 重新 进行 关键 字 高 亮 调 整 了 。 

首先 是 将 . cu 文件 中 的 C++ 函数 高 亮 。 

打开 VS 后 ,在 上 边 的 菜单 栏 选项 中 选择 “工具 ”一 “选项 ”命令 ,在 “选项 ”窗口 中 选择 
“文本 编译 器 ”>“ 文 件 扩展 名 ”选项 ,如 图 4-40 所 示 。 在 “扩展 名 ”里 分 别 添加 cu 和 cuh 并 
在 旁边 的 编辑 器 下 拉 菜 单 中 选择 Microsoft Visual C++ 选项 ,添加 即 可 。 


[mo ] | eam 


Microsoft Visual C++ 
Microsoft Visual C++ 


图 4-40 .cu 文件 C++ 高 亮 


第 二 步 实现 在 ,cu 文件 中 使 CUDA 函数 高 亮 。 
如 果 采 用 的 CUDA 版 本 是 CUDA 6.0 或 者 CUDA 6.0 以 下 的 版 本 ,可 以 在 


SDK PATHVCVdocNsyntax highlightingVusertype. dat 
路 径 下 找到 usertype. dat 文件 ,这 个 文件 中 包含 的 是 常用 CUDA 函数 .字符 定义 等 。 将 这 


个 文件 复制 粘贴 到 VS 中 的 IDE 文件 夹 中 ,重新 启动 VS 即 可 配置 完成 ,本 书 示例 的 路 
BH: 


D: \VS2010\Common7\ IDE 


如 果 采 用 的 是 CUDA 6.0 以 上 的 版 本 ,比如 本 书 使 用 的 CUDA 6. 5, 则 没有 这 个 文件 ， 
因为 此 文件 在 较 高 的 CUDA 版 本 中 已 经 被 删除 。 因 此 ,该 文件 需要 在 网 上 下 载 或 者 自己 重 
新 写 一 个 。 
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如 何 写 usertype. dat 文件 呢 ? 

先 建立 一 个 . txt 文件 ,在 这 个 文件 中 输入 想 要 高 亮 的 CUDA C 语言 的 函数 、 变 量 等 。 
格式 是 每 输入 一 个 函数 或 变量 , 按 Enter 键 ,然后 再 输入 下 一 个 需要 高 亮 的 函数 或 变量 ,如 
图 4-41 所 示 。 


图 4-41 usertype. dat 


需要 输入 的 高 亮 函 数 的 有 __global 
gridDim, blockIdx, blockDim, threadIdx, charl , char2, char3, char4 , ucharl , uchar2 , uchar3, 


uchar4 , shortl , short2, short3, short4 , ushortl , ushort2 , ushort3, ushort4 , intl , int2, int3, 


host 4, device , constant 4, shared |, 


int4 , uintl , uint2 , uint3, uint4 , longl , long2, long3, long4, ulongl , ulong2, ulong3, ulong4, 
longlongl, longlong2, floatl, float2, float3, float4, doublel, double2, diml1, dim2, dim3, 
dim4 .texlDfetch .texlD tex2D, tex3D, __ float as. int, | int as float, | float2int rn, 
. float2int rz,  float2int ru, — float2int rd, | float2uint rn, | float2uint rz, | float2uint | 
ru,  float2uint rd, _ int2float rn, 


int2float rz, _ int2float ru, | int2float rd, 


. uint2float rn, uint2float rz, |» uint2float ru, | uint2float rd, ^ fadd rz, | fmul rz, 
. Ídividef, ^ mul24, | umul24, | mulhi, | umulhi, — mul64hi, | umul64hi, min, umin, 
Íminf,fmin, max, umax, fmaxf, fmax, abs, fabsf, fabs, rsqrtf, rsqrt,sqrtf,sqrt, — sinf, sinf, 


sin、 cosf, cosf, cos, _ _ sincosf, sincosf, sincos, _ _ expf, expf, exp. logf, logf, log, 


. syncthreads, 


之 后 将 这 个 文件 重 命名 为 usertype. dat ,注意 后 缀 也 要 改 。 将 该 文件 放 在 
D:\VS2010\Common7\IDE 


文件 夹 中 即 可 实现 CUDA 中 的 函数 高 亮 ,高 亮 函 数 可 以 为 编程 提供 很 大 的 便利 。 

(2) 在 新 建 项 目 中 选择 Visual C++ 模 板 下 的 “常规 ”选项 ,之 后 选择 “ 空 项 目 ” 创 立 该 文 
件 ,如 图 4-42 Bros. 

(3) 右 击 项 目 文件 ,选择 “属性 ?命令 ,进入 属性 界面 ,如 图 4-43 所 示 , 在 “VC++ 目 录 ” 中 
找到 右 侧 的 “包含 目录 ”引用 目录 ”和 “ 库 目 录 ”。 

其 中 “包含 目录 ”要 将 CUDA 中 ToolTik 的 include 文件 夹 包含 进去 ,因此 示例 中 添加 
的 路 径 为 : 


D:NVCUDA6. 5\CUDA_ToolTik\ include 
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S 


图 4-42 建立 空 项 目 文件 


RRO: [活动 Debug) >] Fep: | 活动 Win32) -| (mmi. 
wem 4 sm 
4 配置 尾 性 可 执行 文件 目录 id — a a an Tools;! svi 
xA [EXE eU Ub] Include TncfudePat 
hz DACUDAE S CUDA Testes 
源 目录 ET E SVCInstol vial mfr fnt 
排除 目录 $(VCInstallDir)include;$(VCInstallDirjatlmfcunclude;$(Windowsf 


图 4-43 VC++ 目 录 配 置 
“引用 目录 ”和 *“ 库 目录 ”中 都 要 添加 的 一 条 相同 的 路 径 为 : 


D:NCUDA6. 5\CUDA_ToolTik\lib\x64 


(4) 在 “VC++ 目 录 ? 配 置 完成 之 后 , 单 击 * 链 接 器 ?再 找到 “常规 ? 右 侧 的 “附加 库 目 录 ” 这 
一 项 ,在 这 中 间 填 上 tooltik 对 应 的 lib 文件 夹 ,如 图 4-44 所 示 ,示例 路 径 为 : 

D: NCUDA6. 5\CUDA_ToolTik\lib\x64 

当然 也 可 以 使 用 在 计算 机 环境 变量 中 的 动态 路 径 。 如 果 使 用 32 位 ,那么 在 lib 文件 夹 
中 可 以 选择 win32。 因 为 示例 中 使 用 的 是 64 位 ,所 以 填写 的 都 是 使 用 x64 的 lib 文件 。 


(5) 配置 完 附加 库 目 录 后 , 单 击 “ 常 规 ” 下 的 “输入 ”选项 ,并 在 其 右 侧 找到 “附加 依赖 
项 ”, 如 图 4-45 所 示 ,在 其 中 填 和 人 cudart. lib, 如 图 4-46 所 示 。 


站 $843 ”GPU 和 CUDA 的 介绍 和 应 用 
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b C/C++ 

» CUDA C/C++ 
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清单 文件 


图 4-44 附加 库 目录 配置 


RAS IDL 
高 级 
een 

> CUDA Linker 


E 


图 4-45 附加 依赖 项 配置 第 一 步 
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图 4-46 ”附加 依赖 项 配置 第 二 步 


(6) 将 属性 页 左上 角 的 “配置 "选项 由 Debug 更 换 成 Release, 然 后 再 进行 一 遍 同样 的 配 
置 ,如 图 4-47 所 示 。 当 然 , 如 果 仅 仅 进 行 Debug, 就 可 以 不 用 在 Release 模式 下 重新 配置 ; 
但 如 果 程 序 需要 Release, 则 必须 重新 配置 。 


S$(VCInstallDin)bin:$(WindowsSdkDir)bin\NETFX 4.0 Tools;$(Wit. 
S(VCInstalibir)indude;$(VCInstallDir)atlmfeinclude;$Windowst 
S(VCInstaliDir)atiméclib;S(VCInstallDir)ib 
S(VCInstoliDir)iib/S(VCInstallDir)atimfeNiib/S(WindowsSdkDir)ib 
S(VCInstaliDir)atimfevsre mic (VCInstallDir)atimfcvsreAmfcm; $C 
S(VCInstaliDirjinclude;S(VCInstaliDir)atimfeVinclude;$(Windowst 


图 4-47 属性 更 换 Release 配置 


(7) 配置 环境 结束 后 , 即 可 在 “ 源 文件 ”中 添加 新 建 项 ,如 C++ 的 . cpp 文件 和 GPU 中 运 
行 的 . cu 文件, 如果 需 要 建立 . cuh 文件 ,直接 选择 CUDA C/C++ Header 即 可 ,如 图 4-48— 
图 4-50 所 示 。 

(8) 右 击 工程 文件 ,选择 “生成 自 定义 ”命令 ,然后 在 出 现 的 窗口 选中 CUDA 6. 5, 如 
图 4-51 所 示 。 

(9) 右 击 项 目 中 的 . cu 文件 ,选择 “属性 ”命令 ,在 出 现 的 窗口 选择 “常规 ”选项 ,在 右 侧 
的 下 拉 列 表 框 中 选择 CUDA C/C++ 选项 ,如 图 4-52 所 示 。 至 此 ,整个 CUDA 文件 配置 


完成 。 
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4-48 ”添加 新 建 项 


[m 


| *= cesa 


图 4-49 添加 . cpp 文件 


需要 注意 的 是 ,在 下 拉 列 表 框 中 一 
的 选项 。 


定 选择 CUDA C/C++ 而 不 是 “C++ 编译 器 ?或 者 其 他 


(10) 现在 需要 对 环境 进行 测试 ,可 以 将 4. 4. 3 节 的 kernel. cu 中 自 带 的 程序 复制 到 . cu 


文件 中 ,直接 运行 查看 环境 是 否 配置 成 


功 , 如 图 4-53 所 示 为 测试 的 结果 。 
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EE: NVIDIA CUDA 6.5 


Creates a file containing CUDA C/C++ 
source code 


DiAVisual Studio 2010 codes\test_cuda\test cuda - Í mme | 


图 4-50 添加 . cu 文件 


TT Targets, -props] VCTar a T ions V 


E masm(targets, .props) $(VCTargetsPath)VBuildCustomizationsyma: 


4-52 配置 . cu 文件 
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图 4-53 ”环境 配置 测试 结果 


4.5 CUDA CHR 


CUDA C 语言 是 由 CUDA 程序 开发 人 员 提 供 的 一 种 编写 设备 端 程序 的 编程 语言 ,原型 
是 C 语言 ,并 在 C 语言 的 基础 上 增加 了 一 些 指令 ,本 节 将 对 CUDA C 语言 中 的 函数 进行 分 
类 介绍 中 

4.5.1 C 语言 最 小 扩展 集 

1. 函数 类 型 限定 符 


(D |. device 
使 用 _device _ 限 定 符 声 明 的 函数 在 设备 上 执行 ,也 可 通过 设备 调用 .， 
(2) global _ 
使 用 _global_ 限 定 符 声明 的 函数 为 内 核 。 此 类 函数 在 设备 上 执行 , 仅 可 通过 主机 才 
能 进行 调用 。 
(3). host . 
使 用 _host_ 限 定 符 声 明 的 函数 在 主机 上 执行 , 仅 可 通过 主机 才能 进行 调用 。 
使 用 过 程 中 需要 注意 以 下 问题 : 
(D device ^8 global 函数 不 支持 递归 。 
. device 4l global _ 函 数 内 无 法 声明 静态 变量 
3) device _ 和 __global 函数 不 得 有 数量 可 变 的 参数 。 
QD — device _ 函 数 的 地 址 无 法 获取 ,但 支持 _global 函数 的 函数 指针 。 
© _global 4l host _ 限 定 符 无 法 一 起 使 用 。 
@__global _ 函 数 的 返回 型 必须 为 空 。 


G 
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(D global _ 函 数 的 调用 是 异步 的 ,也 就 是 说 , 它 会 在 设备 执行 完成 之 前 返回 。 
@ global _ 函 数 参数 将 同时 通过 共享 存储 器 传递 给 设备 , 且 限 制 为 256B。 
O 若 程 序 中 只 有 __host__ 声 明 的 函数 , 则 编译 器 不 会 将 程序 分 离 为 主机 程序 和 设备 程 


序 ,所 有 的 程序 均 在 主机 上 运行 。 


2. 变量 类 型 限定 符 

(1) __device__ 

. device _ 限 定 符 声明 位 于 设备 上 的 变量 ,所 声明 的 变量 具有 如 下 属性 。 
位 于 : 全 局 存储 空间 。 

生命 周期 : 与 应 用 程序 的 生命 周期 一 致 。 

访问 方式 : 可 通过 网 格 内 的 所 有 线程 访问 ,也 可 通过 运行 时 库 从 主机 访问 。 
(2) constant . 


__constant__ 限 定 符 可 选择 与 __device__ 限 定 符 一 起 使 用 ,所 声明 的 变量 具有 如 下 


属性 。 


位 于 : 固定 存储 器 空间 。 

生命 周期 : 与 应 用 程序 生命 周期 一 致 。 

访问 方式 : 可 通过 网 格 内 的 所 有 线程 访问 ,也 可 通过 运行 时 库 从 主机 访问 。 

(3) __shared__ 

__shared_ 限定 符 可 选择 与 _device__ 限 定 符 一 起 使 用 ,所 声明 的 变量 具有 如 下 属性 。 
位 于 : 共享 存储 器 空间 。 

生命 周期 : 与 应 用 程序 生命 周期 一 致 。 

访问 方式 : 可 通过 网 格 内 的 所 有 线程 访问 ,也 可 通过 运行 时 库 从 主机 访问 。 

但 是 在 使 用 时 需要 注意 以 下 问题 : 

(D 主机 程序 中 的 struct 和 union 成 员 、 形 参 和 局 部 变量 不 能 使 用 以 上 限定 符 。 

®© shared Zi constant "Eft Hf fe e gite s. 

@ 以 上 限定 符 无 法 使 用 extern 关键 字 定义 外 部 变量 。 

(D _device_ 和 _ constant_ 变量 仅 允 许 在 文件 作用 域内 使 用 。 

C) 声明 shared | 变量 时 不 能 包含 初始 化 。 

© _constant_ 变量 仅 可 通过 主机 运行 时 函数 从 主机 指派 。 

CD 在 设备 程序 中 声明 ,不 带 任何 限定 符 的 自动 变量 通常 位 于 存储 器 中 。 

(& 通过 _device , shared 或 _constant 变量 的 指针 获得 的 地 址 仅 可 在 设备 程序 


中 使 用 。 通 过 cudaGetSymbolAddressO KH — device | EX — constant 变量 地 址 仅 可 在 
主机 程序 中 使 用 。 


3. 调用 内 核 
在 CUDA 程序 中 ,用 _global 函数 类 型 限定 符 定义 的 函数 称 为 内 核 ,用 < 二 二 二 二 


的 格式 输入 需要 调用 的 CUDA 线程 数 来 调用 内 核 ,表达 式 具体 格式 为 二 二 二 Dg., Db. Ns. 
s 二 二 二 。 例 如 ,需要 调用 一 个 内 核 程 序 _global_void Func(float * parameter){ ) , 则 必须 
通过 如 下 方法 来 调用 此 函数 : 


Func <<< Dg, Db, Ns, s >>>( parameter); 
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其 中 : 

(1) Dg 的 类 型 为 dim3 ,指定 线程 网 格 的 维度 和 大 小 ,Dg. x * Dg. y 等 于 所 启动 线程 块 
的 数量 ,Dg.z 设 定 为 0。 

(2) Db 的 类 型 为 dim3 ,指定 线程 块 的 维度 和 大 小 ,Db. x * Db. y * Db. z 等 于 每 个 线程 
块 的 线程 数量 。 

(3) Ns 的 类 型 为 size_t, 指 定 为 此 调用 动态 分 配 的 共享 存储 器 的 大 小 ( 除 静 态 分 配 的 存 
储 器 ) ,这 些 动态 分 配 的 存储 器 可 供 声明 为 extern 的 数组 使 用 ,Ns 是 一 个 可 选 参 数 ,默认 值 
为 0。 

(4) s 的 类 型 为 cudaStream_t, 指 定 相 关 流 ; s 是 一 个 可 选 参数 ,默认 值 为 0。 

执行 配置 的 参数 将 在 实际 函数 参与 之 前 被 评估 ,与 函数 参数 相同 ,通过 共享 存储 器 同时 
传递 给 设备 。 

如 果 Dg 或 Db 大 于 设备 允许 的 最 大 线程 数量 或 Ns 大 于 设备 上 可 用 的 共享 存储 器 最 大 
值 ,或 小 于 静态 分 配 、 函 数 参 数 和 执行 配置 所 需 的 共享 存储 器 数量 ,函数 将 报错 。 

4. 内 置 变量 

(1) gridDim: 线程 网 格 的 维度 ,类 型 为 dim3。 

(2) blockIdx: 线程 网 格 内 的 线程 块 索引 ,类 型 为 uint3。 

(3) blockDim: 线程 块 的 维度 ,类 型 为 dim3。 

(4) threadIdx: 线程 块 内 的 线程 索引 ,类 型 为 uint3 。 

(5) warpSize: 线程 为 单位 的 warp 块 的 大 小 ,类 型 为 int。 

需要 注意 的 是 ,程序 中 的 变量 不 允许 接受 任何 内 置 变 量 地 址 ,也 不 允许 为 任何 内 置 变 量 
赋值 。 

5. 内 置 变量 类 型 

(1) charl ,ucharl ,char2 , uchar2, char3 , uchar3 , char4 , uchar4 , shortl ,ushortl , short2, 
ushort2 , short3 , ushort3, short4 , ushort4, intl, uintl, int2, uint2, int3, uint3, int4, uint4, 
longl ulongl, long2, ulong2, long3, ulong3, long4, ulong4, floatl, float2, float3, float4, 
double2 。 

这 些 向 量 类 型 继承 自 基本 整 型 和 浮 点 类 型 。 它 们 均 为 结构 体 , 第 1.2、3、4 组 件 分 别 可 
通过 字段 xyz 和 w 访问 。 它 们 附带 形式 为 make_< type name > 的 构造 函数 ,示例 如 下 : 


int2 make_int2(ont x, int y); 
(2) dim3 类 型 。 此 类 型 是 一 种 整 型 向 量 类 型 ,基于 用 于 指定 维度 的 uint3。 在 定义 类 


型 为 dim3 的 变量 时 ,未 指定 的 任何 组 件 都 将 初始 化 为 1。 

6. 计时 函数 

clock t clock(); 

在 设备 程序 中 执行 时 ,返回 随 每 一 次 时 钟 周期 而 递增 的 每 个 多 处 理 计 数 器 的 值 。 在 内 
核 启动 和 结束 时 对 此 计数 器 取样 ,确定 两 次 取样 的 差别 ,然后 为 每 个 线程 记录 下 结果 。 这 为 
各 线程 提供 了 一 种 度量 方法 ,可 度量 设备 为 了 完全 执行 线程 而 占用 的 时 钟 周 期 ,但 不 是 设备 
在 执行 线程 指令 时 实际 使 用 的 时 钟 周期 数 。 
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7. 同步 函数 

__syncthreads() 实 现 线程 块 内 的 线程 同步 , 它 保 证 块 内 的 所 有 线程 都 执行 到 该 语句 的 
位 置 。 也 就 是 说 ,执行 到 该 语句 的 线程 会 暂停 ,直到 整个 块 内 的 线程 都 执行 完成 后 , 才 会 执 
行 下 一 步 的 程序 ,这 样 就 可 以 避免 产生 访 存 冲 突 或 得 到 非 预期 的 结果 。 通 常 在 读 写 存 储 器 
之 后 ,需要 调用 _syncthreads() 函数 保证 线程 同步 ,但 只 能 在 设备 端 调 用 。 

8. 内 存 栅栏 函数 

内 存 栅栏 (memory fence) 函数 用 来 保证 执行 函数 的 线程 所 产生 的 数据 能 够 安全 地 被 其 
他 线程 消费 ,但 只 能 在 设备 端 调用 。 

内 核 栅 栏 函 数 包括 __threadfence()、_threadfence_block() 和 __threadfence_system()。 线 
程 调用 __threadfence( ) 函 数 ,其 实在 该 语句 之 前 线程 就 已 经 完成 对 全 局 存储 器 或 共享 存储 
器 的 访问 ,结果 对 网 格 内 所 有 线程 可 见 。__threadfence_block() 函 数 的 不 同 在 于 结果 对 块 
内 所 有 线程 可 见 ,而 线程 调用 _threadfence_system() 图 数 , 结 果 不 仅 对 GPU 线程 可 见 , 对 
能 够 访问 主机 端 页 锁定 内 存 的 GPU 线程 同样 可 见 , 但 是 只 有 计算 能 力 2.0 以 上 的 设备 才 
支持 这 一 特性 。 

9. 原子 函数 

原子 函数 用 于 在 多 个 线程 同时 访问 全 局 存储 器 或 共享 存储 器 的 同一 位 置 时 ,实现 线程 
间 的 互 斥 操作 。 各 种 硬件 对 原子 操作 的 支持 不 尽 相同 ,从 计算 能 力 1. 1 的 设备 开始 支持 全 
局 存储 器 上 的 32 位 原子 函数 ; 计算 能 力 1. 2 的 设备 增加 了 共享 存储 器 上 32 位 的 原子 函数 
和 全 局 存储 器 上 64 位 的 原子 函数 ; 计算 能 力 2.0 以 上 的 设备 可 以 支持 共享 存储 器 上 64 位 
的 原子 函数 。 另 外 ,只 有 原子 函数 atomicExch() 和 atomicAdd() 支 持 32 位 浮 点 数 的 原子 操 
作 , 其 他 函数 都 只 支持 整 型 数 的 原子 操作 。 

10. 纹理 函数 

CUDA 提供 了 针对 线性 内 存 和 CUDA 数组 的 纹理 拾取 (texture fetch) 函数 。 
TexlDfench() 用 来 从 绑 定 到 纹理 参考 的 线性 存储 器 中 获取 数据 。TexlD()、Tex2D()、 
Tex3D() 分 别 用 于 从 绑 定 到 纹理 参考 的 一 维 . 二 维 、 三 维 的 CUDA 数据 中 获取 数据 。 

4.5.2 运行 时 库 

运行 时 库 是 一 种 被 编译 器 用 来 实现 编程 语言 的 内 置 函数 ,以 提供 该 语言 程序 运行 时 支 
持 的 一 种 特殊 计算 机 程序 库 。 这 种 库 一 般 包括 基本 的 输入 输出 或 内 存 管理 等 支持 。 运 行 时 
库 是 程序 在 运行 时 所 需要 的 库 文件 ,通常 情况 下 ,运行 时 库 是 以 lib 或 dll 形式 提供 的 。 
CUDA 运行 时 API 是 通过 cudart 动态 库 提供 的 ,其 所 有 入 口 都 带 有 cuda 前 级 。cudart 动 
态 库 在 CUDA 开发 环境 安装 及 配置 成 功 后 ,在 相应 安装 目录 下 的 lib 和 bin 文件 夹 下 可 以 
查看 到 对 应 CUDA 版 本 的 cudart. lib 和 cudart. dll; 

CUDA 运行 时 ,API 提供 了 以 下 功能 的 函数 : 

D 设备 管理 ; 

O 线程 管理 ; 

O 流 管理 ; 

© 事件 管理 ; 

O 执行 管理 ; 


第 4 章 ”GPU 和 CUDA 的 介绍 和 应 用 


存储 器 管理 ; 

(C 纹理 引用 管理 ; 

@ 图 形 学 互 操作 性 ; 

© OpenGL 互 操作 性 ; 

O Direct3D 互 操作 性 。 

这 里 列 出 了 所 有 相关 的 运行 时 函数 ,并 简要 介绍 这 些 APT 函数 的 功能 和 方法 ,为 后 续 
学 习 打下 基础 。 下 面 对 这 些 API 管理 函数 逐一 进行 讲解 。 


1. 设备 管理 
设备 管理 函数 主要 用 来 选择 用 于 GPU 计算 的 设备 , 枚 举 所 有 设备 并 检索 其 属性 。 与 
设备 管理 相关 的 有 以 下 几 个 函数 : 


(1) cudaGetDeviceCount 
函数 功能 : 返回 具有 计算 能 力 的 设备 的 数量 。 
调用 形式 : cudaError_t cudaGetDeviceCount(int * count) 
函数 说 明 : 以 * count 形式 返回 可 用 于 执行 的 计算 能 力 大 于 等 于 1.0 的 设备 数量 。 如 
果 不 存在 此 类 设备 ,cudaGetDeviceCount() 将 返回 1, 且 设备 0 仅 支持 设备 模拟 模式 。 由 于 
此 设备 能 够 模拟 所 有 硬件 特性 ,所 以 该 设备 将 报告 9999 中 主要 和 次 要 计算 能 力 。 
返回 值 : cudaSuccess 
(2) cudaSetDevice 
函数 功能 : 设置 设备 以 供 GPU 执行 使 用 。 
调用 形式 : cudaError_t cudaSetDevice(int dev) 
函数 说 明 : 将 dev 记录 为 活动 主线 程 将 执行 设备 码 的 设备 。 
返回 值 : cudaSuccess; cudaErrorInvalidDevice 
(3) cudaGetDevice 
函数 功能 : 返回 当前 使 用 的 设备 。 
调用 形式 : cudaReeoe t cudaGetDevice(int * dev) 
函数 说 明 : 以 * dev 形式 返回 活动 主线 程 执行 设备 码 的 设备 。 
返回 值 : cudaSuccess 
(4) cudaGetDeviceProperties 
函数 功能 : 返回 关于 计算 设备 的 信息 。 
调用 形式 : cudaError_t cudaGetDeviceProperties( struct cudaDeviceProp * prop.int dev) 
函数 说 明 : 以 x prop 形式 返回 设备 dev 的 属性 。 
cudaDeviceProp 结构 定义 如 下 : 
struct cudaDeviceProp( 
char name[256]; 
size t totalGlobalMem; 
size t sharedMemPerBlock; 
int regsPerBlock; 
int warpSize; 
size_t memPitch; 
int maxThreadsPerBlock; 
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int maxThreadsDim[3]; 
int maxGridSize[3]; 
size t totalConstMem; 
int major; 

int minor; 

int clockRate; 

size t textureAlognment; 
int deviceOverlap; 

int multiProcessorCount; 


) 


其 中 ,各 参数 含义 如 下 : 

name 用 于 标识 设备 的 ASCII 字符 串 。 

totalGlobalMem 一 一 设备 上 可 用 的 全 局 存储 器 的 总 量 , 以 字 节 为 单位 。 

sharedMemPerBlock 一 一 线程 块 可 以 使 用 的 共享 存储 器 的 最 大 值 ,以 字 节 为 单位 ; 多 
处 理 器 上 的 所 有 线程 块 可 以 同时 共享 这 些 存储 器 。 

regsPerBlock 一 一 线程 块 可 以 使 用 32 位 存储 器 的 最 大 值 ; 多 处 理 器 上 的 所 有 线程 块 可 
以 同时 共享 这 些 寄存 器 。 

warpSize 一 一 按 线程 计算 的 warp 块 的 大 小 。 

memPitch 一 一 允许 通过 cudaMallocPitch() 为 包含 存储 器 区 域 的 存储 器 复制 函数 分 配 
的 最 大 间距 ,以 字 节 为 单位 。 

maxThreadsDim[3] 一 一 块 各 个 维度 的 最 大 值 。 

maxGridSize[ 3] 一 一 网 格 各 个 维度 的 最 大 值 。 

totalConstMem 一 一 设备 上 可 用 的 不 变 存 储 器 总 量 .以 字 节 为 单位 。 

major 和 minor 一 一 定义 设备 计算 能 力 的 主要 修订 号 和 次 要 修订 号 。 

clockRate 一 一 以 千 赫 为 单位 的 时 钟 频率 。 
对 齐 要 求 , 与 textureAlignment 字 节 对 齐 的 纹理 基 址 不 需要 对 


textureAlignment 
纹理 取样 应 用 偏 移 。 

deviceOverlap 
则 此 值 为 1; 否则 为 0。 


multiProcessorCount 


如 果 设 备 可 在 主机 和 设备 之 间 并 发 复制 存储 器 ,同时 又 能 执行 内 核 ， 


设备 上 多 处 理 器 的 数量 。 

返回 值 : cudaSuccess 或 cudaErrorInvalidDevice 

(5) cudaChooseDevice 

函数 功能 : 选择 最 匹配 标准 的 计算 设备 。 

调用 形式 : cudaError t cudaChooseDevice(int * dev.const struct cudaDeviceProp * prop) 
函数 说 明 : 以 * dev 的 形式 返回 与 * prop 的 匹配 程度 最 高 的 设备 。 

返回 值 : cudaSuccess cudaErrorInvalid Value 

例如 ,查询 机 器 上 设备 的 个 数 并 检索 这 些 设 备 属性 的 程序 如 下 : 

Int deviceCount; 

cudaGetDeviceCount(&deviceCount); 


int device; 
for(device = 0; device < deviceCount;device-*) 
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cudaDeviceProp deviceProp; 
cudaGetDeviceProperties(&deviceProp, device); 
) 


需要 注意 的 是 ,在 启动 GPU 计算 之 前 ,必须 首先 调用 cudaSetDevice( device) 3€ FE VE f& , 
之 后 才能 调用 __global__ 函 数 或 任何 来 自 运 行 时 API 的 函数 。 如 果 未 通过 显 式 调用 
cudaSetDevice() 完 成 此 任务 , 则 将 自动 选中 设备 0, 随 后 对 cudaSetDevice() 的 任何 显 式 调 
用 都 将 无 效 。 

2. 线程 管理 

线程 管理 主要 用 于 管理 GPU 计算 线程 和 CPU 线程 同步 问题 以 及 从 CUDA 启动 中 退 
出 时 ,清理 所 有 与 主机 调用 线程 相关 和 运行 相关 的 资源 。 与 线程 管理 相关 的 函数 有 以 下 
几 个 ， 

(1) cudaThreadSynchronize 

函数 功能 : 等 待 计算 设备 完成 。 

调用 形式 : cudaError_t cudaThreadSynchronize(void) 

函数 说 明 : 在 设备 完成 所 有 先前 请 求 的 任务 之 前 ,一 直 阻 塞 操作 。 如 果 之 前 的 任务 失 
败 ,cudaThreadSynchronize() 将 返回 一 个 错误 。 

返回 值 : cudaSuccess 

cudaThread Synchronize( ) 实 现 GPU 与 CPU 线程 的 同步 。 内 核 函 数 的 启动 执行 与 
CPU 线程 执行 是 异步 的 ,CPU 线程 得 到 的 结果 未 必 是 内 核 函 数 完成 之 后 的 结果 。 如 果 
CPU 线程 需要 等 待 GPU 线程 的 执行 结果 ,就 必须 在 内 核 函 数 之 后 调用 cudaThreadSynchronize() 
函数 ,让 CPU 线程 等 待 GPU 线程 退出 。 类 似 的 函数 还 有 cudaStreamSynchronize C) 和 
cudaEventSynchronizeO ,它们 用 于 流 和 事件 的 同步 。 从 主机 测量 一 系列 CUDA 调用 所 需 
时 间 时 ,要 首先 调用 cuda ThreadSynchronizeO PR 75 . fi GPU 线程 执行 完毕 后 ,进入 CPU 
线程 ,从 而 得 到 正确 的 测 时 。 

(2) cudaThreadExit 

函数 功能 : 从 CUDA 启动 中 退出 并 清除 。 

调用 形式 : cudaError_t cudaThreadExit(void) 

函数 说 明 : 显 式 清除 与 调用 主线 程 有 关 的 相关 资源 ,后 续 任 何 API 调用 都 将 重新 初始 
化 运行 时 ; 在 主线 程 退出 时 ,将 隐 式 调用 cudaThreadExit() 。 

返回 值 : cudaSuccess 

3. 流 管理 

流 管理 函数 主要 包含 了 流 的 创建 .销毁 ,查询 流 的 状态 和 流 的 同步 问题 。 流 主要 用 于 管 
H CUDA 函数 异步 执行 时 的 并 发 问题 。 与 流 管理 相关 的 函数 有 以 下 几 个 : 

(1) cudaStreamCreate 

函数 功能 : 创建 异步 流 。 

调用 形式 : cudaError_t cudaStreamCreate(cudaStream_t * stream) 

函数 说 明 : 创建 流 。 

返回 值 : cudaSuccess; cudaErrorInvalid Value 
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(2) cudaStreamQuery 

函数 功能 : 查询 流 完成 的 状态 。 

调用 形式 : cudaError t cudaStreamQuery(cudaStream t stream) 

函数 说 明 : 如 果 流 中 的 所 有 操作 均 已 完成 , 则 返回 cudasuccess, 否 则 返回 cudaErrorNot Ready. 
返回 值 : cudaSuccess; cudaErrorNOtReady; cudaErrorInvalidResourceHandle 

(3) cudaStreamSynchronize 

函数 功能 : 等 待 流 任务 完成 。 

调用 形式 : cudaError t cudaStreamSynchronize(cudaStream_t stream) 

函数 说 明 : 在 设备 完成 流 中 的 所 有 操作 之 前 ,一 直 阻 塞 操作 。 

返回 值 : cudaSuccess; cudaErrorInvalidResourceHandle 

(4) cudaStreamDestroy 

函数 功能 : 销毁 并 清除 流 对 象 。 

调用 形式 : cudaError t cudaStreamDestroy(cudaStream_t stream) 

函数 说 明 : 销毁 流 对 象 。 

返回 值 : cudaSuccess; cudaErrorInvalidResourceHandle 

例如 ,创建 两 个 流 , 并 为 每 个 流 定 义 一 个 序列 ,包括 一 次 从 主机 到 设备 的 存储 器 复制 一 


次 内 核 启 动 和 一 次 从 设备 到 主机 的 存储 器 复制 。 程 序 如 下 : 


cudaStream t stream[2]; // 创 建 两 个 流 
for (int i=0; i«2; i++) 
cudaStreamCreate (&stream [i]); // 为 每 个 流 定 义 一 个 序列 
for (int i=0; i«2; i++) 
cudaMemcpyAsync (inputDevPtr + i * size, hostPtr + i* size, size, cudaMemcpyHostToDevice, 
stream[i]); 
for (int i=0; i«2; i++) 
kernel <<< 100, 512, 0, stream[ i]>>> 
(outputDevPtr + ix size, inputDevPtr + i* size, size); 
for (int i=0; i«2; i++) 
cudaMemcpyAsync (hostPtr + i * size, outputDevPtr + i * size, size, cudaMemcpyDeviceToHost, 
stream[i]); 
cudaThreadSynchronize(); 


在 上 面 的 程序 中 ,两 个 流 均 会 将 输入 数组 hostPtr 的 一 部 分 复制 到 设备 存储 器 的 


inputDevPtr 数组 中 ,通过 调用 myKernel() 处 理 设备 上 的 inputDevPtr, 并 将 结果 outputDevPtr 
复制 回 hostPtr。 使 用 两 个 流 处 理 hostPtr 允许 一 个 流 的 存储 器 复制 与 另外 一 个 流 的 内 核 
执行 相互 重合。hostPtr 必须 指向 分 页 锁定 的 主机 存储 器 ,这 样 才能 出 现 重 概 。 


最 后 调用 了 cudaThreadSynchronize() ,目的 是 在 进行 进一步 处 理 之 前 确定 所 有 流 均 已 


完成 。Cudastreamsynchronize() 可 用 于 同步 主机 与 特定 流 , 人 允许 其 他 流 继续 在 该 设备 上 执 
行 。 通 过 调用 cudaStreamDestroy() 可 释放 流 。 


4. 事件 管理 
事件 管理 包括 了 创建 事件 对 象 . 记 录 事 件 ,查询 事件 .事件 同步 .销毁 事件 对 象 和 计算 两 


次 事件 之 间 相 差 的 时 间 这 些 功能 。 与 事件 管理 相关 的 函数 有 以 下 几 个 : 


(1) cudaEventCreate 


函数 功能 : 创建 事件 对 象 。 
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调用 形式 : cudaError t cudaEventCreate(cudaEvent t * event) 

函数 说 明 : 创建 事件 对 象 。 

返回 值 : cudaSuccess; cudaErrorlnitializationError; cudaErrorPriorLaunchFailure; 
cudaErrorInvalidValue; cudaErrorMemoryAllocation 

(2) cudaEventRecord 

函数 功能 : 记录 事件 。 

调用 形式 : cudaError t cudaEventRecord(cudaEvent_t event, CUstream stream) 

函数 说 明 : 记录 事件 。 如 果 流 非 零 , 则 在 完成 流 中 所 有 先前 操作 之 后 记录 事件 ; 否则 
将 在 完成 CUDA 上 下 文中 所 有 先前 的 操作 之 后 记录 事件 。 由 于 此 操作 是 异步 的 ,所 以 必须 
使 用 cudaEventQuery O 8 cudaEventSynchronize() 确 定 事件 的 实际 记录 时 间 。 如 果 之 前 
已 调用 过 cudaEventRecord(), 而 尚未 记录 事件 , 则 此 函数 将 返回 cudaErrorInvalidValue。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorlnitializationError; cudaEr- 
rorPriorLaunchFailure; cudaErrorInvalidResourceHandle 

(3) cudaEventQueryo 

函数 功能 : 查询 是 否 已 经 记录 了 事件 。 

调用 形式 : cudaErrortcudaEventQuery(cudaEventtevent) 

函数 说 明 : 如 果 确 实 已 经 记录 了 事件 , 则 返回 cudaSuccess; 如 果 尚 未 记录 , 则 返回 
cudaErrorNotReady。 如 果 尚 未 对 此 事件 调用 cudaEventRecord(), 则 该 函数 将 返回 
cudaErrorInvalidValue., 

返回 值 : cudaSuccess: cudaErrorNotReady; cudaErrorlnitializationError; cudaError- 
PriorLaunchFailure; cudaErrorInvalidValue; cudaErrorInvalidResourceHandle 

(4) cudaEventSynchronize 

函数 功能 : 等 待 事件 被 记录 。 

调用 形式 : cudaError t cudaEventSynchronize(cudaEvent_t event) 

函数 说 明 : 在 实际 记录 事件 之 前 ,一 直 阻 塞 操作 。 如 果 尚 未 为 此 事件 调用 cudaEventRecord()， 
则 该 函数 返回 cudaErrorInvalidValue。 

返回 值 ，cudaSuccess; cudaErrorlnitializationError; cudaErrorPriorLaunchFailure; 
cudaErrorInvalid; Value; cudaErrorInvalidResourceHandle 

(5) cudaEventDestroy 

函数 功能 : 销毁 事件 对 象 。 

调用 形式 : cudaError t cudaEventDestroy(cudaEvent_t event) 

3& [| f: cudaSuccess; cudaErrorInitializationError; cudaErrorPriorLaunchFailure; 
cudaErrorInvalid Value 

(6) cudaEventElapsedTime 

函数 功能 : 计算 两 次 事件 之 间 相差 的 时 间 。 

调用 形式 : cudaError_t cudaEventElapsedTime (float * time. cudaEvent t start. 
cudaEvent t end), 

函数 说 明 : 计算 两 次 事件 之 间 相 差 的 时 间 ( 以 毫秒 为 单位 ,精度 为 0. 5us) 。 如 果 尚 未 记 
录 其 中 任何 一 个 事件 , 则 此 函数 将 返回 cudaErrorInvalidValue。 如 果 记 录 其 中 任何 一 个 事 
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件 使 用 了 非 零 流 , 则 结果 不 确定 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorlnitializationError; cudaEr- 
rorPriorLaunchFailure; cudaErrorInvalidValue; cudaErrorInvalidResourceHandle 

5. 存储 器 管理 

存储 器 管理 主要 用 于 管理 主机 内 存 和 GPU 显存 的 分 配 、 初 始 化 和 释放 ,以 及 这 两 种 不 
同 存储 器 数据 之 间 的 复制 。GPU 上 的 显存 包括 线性 存储 器 和 CUDA 数组 ,针对 不 同类 型 
的 显存 有 不 同 的 使 用 方法 。 与 存储 器 管理 相关 的 函数 有 以 下 几 个 : 

(1) cudaMalloc 

函数 功能 : 在 GPU 上 分 配 存储 器 。 

调用 形式 : cudaError_t cudaMalloc( void ** devPtr. size t count) 

函数 说 明 : 向 设备 分 配 count 字 节 的 线性 存储 器 ,并 以 * devPtr 的 形式 返回 指向 所 分 
配 存储 器 的 指针 。 可 针对 任何 类 型 的 变量 合理 调整 所 分 配 的 存储 器 ,存储 器 不 会 被 清除 。 
如 果 出 现 错误 ,cudaMalloc() 将 返回 cudaErrorMemoryAllocation, 

返回 值 : cudaSuccess; cudaErrorMemoryAllocation 

(2) cudaMallocPitch 

函数 功能 : 向 GPU 分 配 存 储 器 。 

调用 形式 ; cudaError_t cudaMallocPitch(void xx devPtr, size t * pitch.size t widthInBytes, 
size_t height) 

函数 说 明 : 向 设备 分 配 至 少 widthInBytes * height 字 节 的 线性 存储 器 ,并 以 * devPtr 
的 形式 返回 指向 所 分 配 存 储 器 的 指针 。 该 函数 可 以 填充 所 分 配 的 存储 器 ,以 确保 在 地 址 从 
一 行 更 新 到 另 一 行 时 ,给 定 行 的 对 应 指针 依然 满足 对 齐 要 求 。 

cudaMallocPitch() 以 x pitch 的 形式 返回 间距 , 即 所 分 配 存储 器 的 宽度 ,以 字 节 为 单位 。 
间距 是 存储 器 分 配 时 的 一 个 独立 参数 ,用 于 在 二 维 数组 内 计算 地 址 。 如 果 给 定 一 个 工 类 型 
数组 元 素 的 行 和 列 , 则 可 按 如 下 方法 计算 地 址 : 


T* pElement = (T*)((char* )BaseAddress + Row * pitch) + Column; 


对 于 二 维 数组 的 分 配 ,建议 使 用 cudaMallocPitch() 来 执行 间距 分 配 。 巾 于 硬件 中 存在 
间距 对 齐 的 限制 ,如 果 应 用 程序 将 在 设备 存储 器 的 不 同 区 域 之 间 执 行 二 维 存储 器 复制 (无 论 
线性 存储 器 还 是 CUDA 数组 ) ,这 种 方法 将 非常 有 用 。 

返回 值 : cudaSuccess; cudaErrorMemoryAllocation 

(3) cudaFree 

函数 功能 : 释放 GPU 上 的 存储 器 。 

调用 形式 : cudaError t cudaFree(void * devPtr) 

函数 说 明 : 释放 devPtr. dev 必须 是 之 前 调用 cudaMalloc( ) 或 cudaMallocPitch() 时 
返回 所 指向 的 存储 器 空间 。 如 果 未 返回 或 者 已 经 调用 过 cudaFree( decPtr) , 则 返回 一 个 
错误 。 如 果 devPtr 为 0, 则 不 执行 任何 操作 。 如 果 出 现 错误 , 则 cudaFree() 将 返回 
cudaErrorInvalidDevicePointer。 


返回 值 : cudaSuccess; cudaErrorInvalidDevicePointer; cudaErrorInitializationError 
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(4) cudaMallocArray 
函数 功能 : 向 GPU 分 配 数组 。 


调用 形式 : cudaError_t cudaMallocArray (struct cudaArray ** array. const struct 


cudaChannelFormatDesc * desc. size t width. size t height ) 

函数 说 明 : 根据 cudaChannelFormatDesc 的 结构 desc 分 配 CUDA 数组 ,以 x array 的 
形式 返回 新 CUDA 数组 的 句柄 。 

cudaChannelFormatDesc 定义 如 下 : 

struct cudaChannelFormatDesc{ int x,y,zw; enum cudaChannelFormatKind f; }; 

其 中 , cudaChannelFormatKind 是 cudaChannelFormatKindSigned, cudaChannelFo- 
rmatKindUnsigned 或 cudaChannelFormatKindFloat 之 一 。 

返回 值 : cudaSuccess; cudaErrorMemoryAllocation 

(5) cudaFreeArray 

函数 功能 : 释放 GPU 上 的 数组 。 

调用 形式 : cudaError t cudaFreeArray( struct cudaArray * array) 

函数 说 明 : 释放 CUDA 数组 array。 如 果 array 为 0, 则 不 执行 任何 操作 。 

返回 值 : cudaSuccess; cudaErrorlInitializationError 

(6) cudaMallocHost 

函数 功能 : 向 主机 分 配 分 页 锁定 的 存储 器 。 

调用 形式 : cudaError t cudaMallocHost(void ** hostPtr.size t size) 

函数 说 明 : 分 配 size 字 节 大 小 的 分 页 锁定 且 设 备 可 访问 的 主 存储 器 。 驱 动 程序 会 跟踪 
由 此 函数 分 配 的 虚拟 存储 器 范围 ,自动 加 速 对 cudaMemepy * () 等 函数 的 调用 。 由 于 设备 
可 直接 访问 存储 器 ,所 以 与 malloc() 等 函数 分 配 的 可 分 页 存储 器 相 比 ,这 种 存储 器 在 读 取 或 
写 人 时 的 带宽 更 高 。 使 用 cudaMallocHost() 分 配 过 多 存储 器 可 能 会 导致 系统 性 能 降低 , 因 
为 这 将 减少 系统 可 用 于 分 页 的 存储 器 数量 。 因 而 .尽量 少 使 用 此 函数 ,一 般 只 用 于 为 主机 和 
设备 之 间 的 数据 交换 分 配 存储 器 。 

返回 值 : cudaSuccess; cudaErrorMemoryAllocation 

(7) cudaFreeHost 

函数 功能 : 释放 分 页 锁定 的 存储 器 。 

调用 形式 : cudaError t cudaFreeHost(void * hostPtr) 

函数 说 明 : 释放 hostPtr 指向 的 存储 器 空间 ,之 前 的 cudaMallocHost() 调 用 必须 返回 
hostPtr。 

返回 值 : cudaSuccess; cudaErrorlnitializationError 

(8) cudaMemset 

函数 功能 : 初始 化 (设置 ,GPU 存储 器 的 值 。 

调用 形式 : cudaErrortcudaMemset(void * devPtr,intvalue, sizetcount) 

函数 说 明 : 使 用 固定 字 节 值 value 来 填充 devPtr 所 指向 存储 器 区 域 的 前 count 个 字 节 。 

返回 值 : cudaSuccess; cudaErrorInvalid: Value; cudaErrorInvalidDevicePointer 

(9) cudaMemset2D 

函数 功能 : 初始 化 GPU 存储 器 的 值 。 
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调用 形式 : cudaErrorteudaMemset2D (void * devPtr.size t dpitch, int value, size_t 
width.size t height) 

函数 说 明 : 将 dstPtr 指向 的 矩阵 (共有 height 行 ,每 行 width 字 节 ) 设 置 为 指定 值 
value, pitch 是 dstPtr 指向 的 二 维 数组 在 存储 器 中 的 宽度 ,其 中 包括 添加 到 各 行 末尾 的 填 
充 符 。 在 cudaMallocPitch() 已 经 传 回 所 使 用 的 间距 时 ,此 函数 的 执行 速度 最 快 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer 

(10) cudaMemcpy 

函数 功能 : 在 GPU 和 主机 之 间 复 制 数据 。 

调用 形式 : cudaError t cudaMemepy (void * dst, const void * src, size_t count. 
enumcudaMemcpyKind kind) fl cudaError t cudaMemcpyAsync(void * dst. const void * 
src. size t count. enum cudaMemcpyKind kind.cudaStream t stream) 

函数 说 明 : 从 ser 指向 的 存储 器 区 域 中 ,将 count 个 字 节 复 制 到 dst 指向 的 存储 器 区 域 ， 
其 中 kind 是 cudaMemcpyHostToHost , cudaMemcepyHost ToDevice , cudaMemcpyDeviceToHost 
或 cudaMemepyDeviceToDevice 之 一 ,用 于 指定 复制 的 方向 。 ff fili DUI n] RS RH 
cudaMemcpy() 时 ,如 果 dst 和 src 指针 与 复制 的 方向 不 匹配 , 则 将 导致 不 确定 的 行为 。 

cudaMemcpyAsync() 是 异步 的 ,可 选择 传人 非 零 流 参数 ,从 而 将 其 关联 到 一 个 流 。 它 
仅 对 分 页 锁定 的 主 存 储 嚣 有效 ,如果 传 人 指向 可 分 页 存储 器 的 指针 ,那么 将 返回 一 个 错误 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorInvalidMemcpyDirection 

(11) cudaMemcpy2D 

函数 功能 : 在 主机 和 设备 之 间 复 制 数据 。 

调用 形式 : cudaError_t cudaMemcpy2D(void * dst, size_t dpitch, const void * src. 
size _ t spitch, size _ t width. size _ t height. enum cudaMemcpyKind kind) 和 
(cudaMemcepy2DAsync(void * dst, size_t const. void * src.size t spitch.size t height. 
enum cudaMemcpyKind kind.cudaStream t stream) 

函数 说 明 : 从 src 指向 的 存储 器 区 域 中 将 一 个 矩阵 ( 共 height 行 ,每 行 width 字 节 ) 复 制 
到 dst 指向 的 存储 器 区 域 ,其 中 kind 是 cudaMemcpyHostToHost、 cudaMemcpyHostTo- 
Device, cudaMemcpyDeviceToHost 或 cudaMemcpyDeviceToDevice 之 一 ,用 于 指定 复制 的 
方向 。dpitch 和 spitch 是 dst 和 src 指向 的 二 维 数组 在 存储 器 中 的 宽度 (以 字 节 为 单位 ) ,其 
中 包括 添加 到 各 行 末 尾 的 填充 符 。 存 储 器 区 域 不 可 重合 。 调 用 cudaMemcpy2D() 时 ,如 果 
dst 和 src 指针 与 复制 方向 不 匹配 , 则 将 导致 不 确定 的 行为 。 如 果 dpitch 或 spitch 超过 允许 
的 最 大 值 , 则 cudaMemcpy2D() 将 返回 一 个 错误 。 

cudaMemcpy2DAsync() 是 异步 的 ,可 选择 传人 非 零 流 参数 ,从 而 将 其 关联 到 一 个 流 。 
它 仅 对 分 页 锁定 的 主 存储 器 有 效 , 如 果 传 人 指向 可 分 页 存储 器 的 指针 ,那么 将 返回 一 个 
错误 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidpitchValue; cudaEr- 
rorInvalidDevicePointer; cudaErrorInvali dMemcpyDirection 

(12) cudaMemcpyToArray 

函数 功能 : 在 主机 和 设备 间 复 制 数据 。 
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调用 形式 : cudaError_t cudaMemcpyToArray (struct cudaArray * dstArray, size_t 
dstX.size t dstY ,const void * src.size t count,enum cudaMemcpyKind kind,cudaStream_ 
t stream) 

函数 说 明 : 从 src 指向 的 存储 器 区 域内 将 count 个 字 节 复制 到 一 个 CUDA 数组 
dstArray, 该 数组 的 左上 角 从 (dstX,dstY) 开 始 , 其 中 kind 是 cudaMemcpyHostToHost、 
cudaMemcpyHostToDevice.cudaMemcpyDeviceToHost 或 cudaMemcpyDeviceToDevice 之 
一 ,用 于 指定 复制 的 方向 。cudaMemcpyToArrayAsync() 是 异步 的 ,可 选择 传人 非 零 流 参 
数 ,从 而 将 其 关联 到 一 个 流 。 它 仅 对 分 页 锁定 的 主 存储 器 有 效 ,如果 传 人 指向 可 分 页 存储 器 
的 指针 ,那么 将 返回 一 个 错误 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorInvalidMemepyDirection 

(13) cudaMemcpy2DTOArrray 

函数 功能 : 在 主机 和 设备 间 复 制 数据 。 

调用 形式 : cudaError_t cudaMemcpy2DToArray(struct cudaArray * dstArray.size t 
dstX.size t dstY.const void * src, size_t spitch, size_t width. size. t height. enum 
cudaMemoepyKind kind); 

cudaError. t cudaMemcpy2DToArrayAsync (struct cudaArray * dstArray. size t 
dstX.size t dstY, const void * src, size_t spitch. size t width. size_t height. enum 
cudaMemcepyKind kind.cudaStream t stream) 。 

函数 说 明 : 从 src 指向 的 存储 器 区 域内 将 一 个 矩阵 ( 共 height 行 ,每 行 width 字 节 ) 复 制 
到 CUDA 数组 dstArray, 该 数组 的 左上 角 从 (dstX, dstY) 开始 , 其 中 kind 是 
cudaMemcpyHostTOHost、cudaMemcpyHostToDevice、cudaMemcpyDeviceToHost 或 
cudaMemcpyDeviceToDevice 之 一 ,用 于 指定 复制 的 方向 。spitch 是 src 指向 的 二 维 数组 在 
存储 器 中 的 宽度 (以 字 节 为 单位 ) ,其 中 包括 添加 到 各 行 末尾 的 填充 符 。 如 果 spitch 超过 允 
许 的 最 大 值 , 则 cudaMemcpy2D() 将 返回 一 个 错误 。 

cudaMemcpy2DToArrayAsync() 是 异步 的 ,可 选择 传人 非 零 流 参数 ,从 而 将 其 关联 到 
一 个 流 。 它 仅 对 分 页 锁定 的 主 存储 器 有 效 , 如 果 传 人 指向 可 分 页 存储 器 的 指针 ,那么 将 返回 
一 个 错误 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorInvalidPitchValue; cudaErrorInvalidMemcpyDirection 

(14) cudaMemcpyFromArray 

函数 功能 : 在 主机 和 设备 间 复 制 数据 。 

调用 形式 : cudaError t cudaMemcpyFromArray(void x dst.const struct cudaArray * 
srcArray.size t srcX.size t srcY.size t count. enum cudaMemcepyKind kind); 

cudaError t cudaMemcepyFromArrayAsync (void * dst. const struct cudaArray * 
srcArray.size t srcX.size t srcY.size t count. enum cudaMemcpyKind kind.cudaStream t 
stream) ; 

函数 说 明 : 从 一 个 CUDA 数组 dstArray( 左 上 角 以 (srcX,srcY) 开 始 ) 内 将 count 个 字 节 复制 
到 dst 指向 的 存储 器 区 域 。 其 中 kind 是 cudaMemcpyHost ToHost , cudaMemcpy Host ToDevice 、 
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cudaMemcpyDeviceToHost 或 cudaMemcpyDeviceToDevice 之 一 ,用 于 指定 复制 的 方向 。 

cudaMemcpyFromArrayAsync() 是 异步 的 ,可 选择 传人 非 零 流 参数 ,从 而 将 其 关联 到 
一 个 流 。 它 仅 对 分 页 锁定 的 主 存储 器 有 效 ,如果 传 人 指向 可 分 页 存储 器 的 指针 ,那么 将 返回 
一 个 错误 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorInvalidMemcpyDirection 

(15) cudaMemcpy2DFromArray 

函数 功能 : 在 主机 和 设备 间 复 制 数据 。 

调用 形式 : cudaError_t cudaMemcpy2DFromArray (void * dst, size_t dpitch. const 
struct cudaArray * srcArray, size_t srcX, size_t srcY,size_t width, size_t height. enum 
cudaMemcpyKind kind) ; 

cudaError t cudaMemcpy2DFromArrayAsync(void * dst, size_t dpitch. const struct 
cudaArray * srcArray. size t srcX. size. t srcY. size. t width. size_t height, enum 
cudaMemcepyKind kind.cudaStream t stream); 

函数 说 明 : 从 一 个 CUDA 数组 dstArray( 左 上 和 角 以 (srcX,srcY) 开 始 ) 内 将 一 个 矩阵 
(GE height 行 , fg fT width 字 节 ) 复 制 到 dst 指向 的 存储 器 区 域 , 其 中 kind 是 
cudaMemcpyHostToHost, cudaMemcpyHostToDevice, cudaMemcpyDeviceToHost 或 
cudaMemcpyDeviceToDevice 之 一 ,用 于 指定 复制 的 方向 。dpitch 是 dst 指向 的 二 维 数组 在 
存储 器 中 的 宽度 (以 字 节 为 单位 ) ,其 中 包括 添加 到 各 行 末尾 的 填充 符 。 如 果 dpitch 超过 多 
许 的 最 大 值 , 则 cudaMemcpy2D() 将 返回 一 个 错误 。 

cudaError t cudaMemcpy2DFromA rrayAsync 是 异步 的 ,可 选择 传人 非 零 流 参 数 , 从 而 
将 其 关联 一 个 流 。 它 仅 对 分 页 锁定 的 主 存储 器 有 效 , 如 果 传 人 指向 可 分 页 存储 器 的 指针 , 那 
么 将 返回 一 个 错误 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorlnvalidPitchValue; cudaErrorInvalidMemcpyDirection 

(16) cudaMemcpyArrayToArray 

函数 功能 : 在 主机 和 设备 间 复 制 数据 。 

调用 形式 : cudaError_t cudaMemcpyArrayTOArray (struct cudaArray * dstArray， 
size t dstX.size t dstY ,const struct cudaArray * srcArray.size t srcX.size t srcY.size t 
count. enum cudaMemoepyKind kind) 

函数 说 明 : 从 一 个 CUDA 数组 dstArray( 左 上 角 以 (srcX,srcY) 开 始 ) 内 将 count 5E 45 
复制 到 另 一 个 CUDA 数组 dstArray (左上 角 以 (CdstX, dstY) 开始), 其 中 kind 是 
cudaMemcpyHostToDevice、cudaMemcpyDeviceToHost 或 cudaMemcpyHostToHost、 
cudaMemcpyDeviceToDevice 之 一 ,用 于 指定 复制 的 方向 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvali dMemcpyDirection 

(17) cudaMemcpy2DArrayTOArray 

函数 功能 : 在 主机 和 设备 间 复 制 数据 。 

调用 形式 : cudaError_t cudaMemcpy2DArrayToArray (struct cudaArray * dstArray， 


size t dstX.size t dstY ,const struct cudaArray * srcArray.size t srcX.size t srcY.size t 
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width.size t height,enum cudaMemcpyKind kind) 

函数 说 明 : 从 一 个 CUDA 数组 dstArray( 左 上 角 以 (srcX,srcY) 开 始 ) 内 将 一 个 矩阵 
( 供 height 行 , 每 行 width 字 节 ) 复 制 到 另 一 个 CUDA 数组 dstArray( 左 上 角 以 (dstX,dstY) 
开始 ) ,其 中 kind 是 cudaMemcpyHostToHost、 cudaMemcpyHostToDevice、 cudaMemcpy- 
DeviceToHost 或 cudaMemcpyDeviceToDevice 之 一 ,用 于 指定 复制 的 方向 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidMemcpyDirection 

(18) cudaMemcpy ToSymbol 

函数 功能 : 将 主 存 储 器 的 数据 复制 到 GPU。 

调用 形式 : template < class T» 

cudaError t cudaMemcpyToSymbol(const T&-symbol,const void * src.size t count, 
size t offset. enum cudaMemcepyKind kind) 

函数 说 明 : 从 src 指向 的 存储 器 区 域内 将 count 个 字 节 复制 到 从 symbol 偏 移 offset 字 
节 , 所 指向 的 存储 器 区 域 。 存 储 器 区 域 不 可 重 又 。symbol 可 以 是 位 于 全 局 存储 器 或 不 变 存 
储 器 空间 内 的 变量 ,也 可 以 是 一 个 指定 全 局 存储 器 或 不 变 存 储 器 空间 变量 的 字符 串 。kind 
可 以 是 cudaMemcpyHostToDevice 或 cudaMemcpyDeviceToDevice。 

返回 值 : cudaSuccess; cudaErrorlnvalidValue; cudaErrorInvalidSymbol; cudaError- 
InvalidDevicePointer; cudaErrorInvali dMemcpyDirection 

(19) cudaMemcpyFromSymb 

函数 功能 : 将 GPU 的 数据 复制 到 主 存储 器 。 

调用 形式 : template < class 工 > 

cudaError t cudaMemcpyFromSymbol( void * dst,const T & symbol, size_t count, 
size t offset.enum cudaMemcepyKind kind) 

函数 说 明 : 从 offset 字 节 所 指向 的 存储 器 区 域内 (从 symbol 符号 开始 ) 将 count 个 字 节 
复制 到 dst 指向 的 存储 器 区 域 。 ff ñ wš DC PALAIS n] ER. symbol 可 以 是 位 于 全 局 存储 器 或 
不 变 存 储 器 空间 内 的 变量 ,也 可 以 是 一 个 指定 全 局 存储 器 或 不 变 存储 器 空间 变量 的 字符 串 。 
kind 可 以 是 cudaMemcpyDeviceToHost 或 cudaMemcpyDeviceToDevice。 

返回 值 ; cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidSymbol; cudaError- 
InvalidDevicePointer; cudaErrorInvalidMemcpyDirection 

(20) cudaGetSymbolAddress 

函数 功能 : 查找 与 CUDA 符号 关联 的 地 址 。 

调用 形式 : template < class T» 

cudaError t cudaGetSymbolAddress( void ** devPtr,const T & symbol) 

函数 说 明 : 以 * devPtr 的 形式 返回 符号 symbol 在 设备 上 的 地 址 。symbol 可 以 是 位 于 全 
局 存储 器 或 不 变 存 储 器 空间 内 的 变量 ,也 可 以 是 一 个 指定 全 局 存储 器 或 不 变 存 储 器 空间 变量 
的 字符 串 。 如 果 无 法 找到 symbol, 或 未 在 全 局 存储 器 空间 内 声明 symbol, * devPtr 将 保持 不 
变 ,并 返回 一 个 错误 。 如 果 出 现 错误 , 则 cudaGetSymbolAddress() 将 返回 cudaErrorInvalidSymbol。 

返回 值 : cudaSuccess; cudaErrorInvalidSymbol; cudaErrorAddressOfConstant 

(21) cudaGetSymbolSize 

函数 功能 : 查找 与 CUDA 符号 关联 的 对 象 的 大 小 。 
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调用 形式 : template < class T» 
cudaError t cudaGetSymbolSize ( size t * size.const T & symbol) 
函数 说 明 : 以 * size 的 形式 返回 符号 symbol 的 大 小 。symbol 可 以 是 位 于 全 局 存储 器 
或 不 变 存储 器 空间 内 的 变量 ,也 可 以 是 一 个 指定 全 局 存储 器 或 不 变 存 储 器 空间 变量 的 字符 
串 。 如 果 无 法 找到 symbol, 或 未 在 全 局 或 不 变 存储 器 空间 内 声明 symbol. * size 将 保持 不 
变 , 并 返回 一 个 错误 。 如 果 出 现 错误 , 则 cudaGetSymbolSize() 将 返回 cudaErrorInvalidSymbol 。 
返回 值 : cudaSuccess; cudaErrorInvalidSymbol 
(22) cudaMalloc3D 
函数 功能 : 向 GPU 4o BOE SR — HE .二 维 或 三 维 存储 器 对 象 。 
调用 形式 : 
struct cudaPitchedPtr { 
void * ptr; 
size t pitch; 
size_t xsize; 
size t ysize; }; 
struct cudaExtent( 
size t width; 
size t height; 
size t depth; }; 
cudaError t cudaMalloc3D ( struct cudaPitchedPtr * pitchDevPtr, struct cudaExtent extent) 
函数 说 明 : 向 设备 分 配 至 少 width * height * depth 个 字 节 的 线性 存储 器 ,并 返回 
pitchedDevPtr, 其 中 ptr 是 指向 已 分 配 存储 器 的 指针 。 该 郴 数 可 填充 所 分 配 的 存储 器 ,确保 
满足 硬件 对 齐 要 求 。pitchedDevPtr 的 pitch 字段 中 返回 的 间距 是 所 分 配 存储 器 的 宽度 ,以 
字 节 为 单位 。 返 回 的 cudaPitchedPtr 包含 额外 的 字段 xsize 和 ysize, 是 所 分 配 存储 器 的 逻 
辑 宽度 和 高 度 。 对 于 二 维 或 三 维 对 象 的 分 配 ,建议 使 用 cudaMalloc3D() 或 cudaMallocPitch() 
来 执行 分 配 。 由 于 硬件 中 存在 对 齐 限制 ,如 果 应 用 程序 将 执行 涉及 二 维 或 三 维 对 象 的 存储 
器 复制 ,那么 这 种 方法 将 非常 有 用 。 
返回 值 ; cudaSuccess; cudaErrorMemoryAllocation 
(23) cudaMalloc3DA rray 
函数 功能 : 向 GPU 分 配 一 个 数组 。 
调用 形式 : struct cudaExtent{ size_t width; size t height; size t depth; ); 
cudaError | t cudaMalloc3DArray (struct cudaAray * *  arrayPtr. const struct 
cudaChannelFomatDesc * desc.struct cudaExtent extent) 
函数 说 明 : 根据 cudaChannelFormatDesc 结构 desc 分 配 一 个 CUDA 数组 ,并 以 * arrayPtr 
的 形式 返回 新 CUDA 数组 的 句柄 。 
cudaChannelFormatDesc 定义 如 下 : 


struct cudaChannelFormatDesc ( int x, y, Z, w; 
enum cudaChannelFormatKind f; }; 


其 中 ,cudaChannelFormatKind 是 cudaChannelFormatKindSigned,, cudaChannelFormatKindUnsigned 
或 cudaChannelFormatKindFloat 之 一 。 
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cudaMalloc3Darray 能 够 分 配 一 维 、 二 维 或 三 维 数组 。 

(D 如 果 height 和 depth 范围 都 是 0, 则 分 配 一 维 数组 。 对 于 一 维 数组 ,有 效 范围 是 {(1， 
8192) ,0,0} 。 

© 如 果 仅 有 depth 范围 是 0, 则 分 配 二 维 数组 。 对 于 二 维 数组 ,有 效 范围 是 {(1， 
65536),(1,32768) ,0)。 

© 如 果 三 项 范围 全 部 为 非 0, 则 分 配 三 维 数组 。 对 于 三 维 数 组 ,有 效 范 围 是 { (1,2048)， 
(1,2048),(1,2048)}。 

注意 ,区 分 范围 限制 有 助 于 利用 更 高 维度 的 退化 数组 。 例 如 ,退化 二 维 数组 比 一 维 数组 
支持 的 线性 存储 空间 更 多 。 

返回 值 : cudaSuccess; cudaErrorMemoryAllocation 

(24) cudaMemset3D 

函数 功能 : 初始 化 GPU 存储 器 的 值 。 

调用 形式 : 

struct cudaPitchedPtr { 

void * ptr; 
size t pitch; 
size t xsize; 
size t ysize; }; 
struct cudaExtent ( 

size t width; 
size t height; 
size t depth; ); 

cudaError t cudaMemset3D ( struct cudaPitchedPtr dstPitchPtr, int value, struct cudaExtent extent ) 

函数 说 明 : 初始 化 三 维 数组 的 各 元 素 ,将 其 设置 为 特定 值 value, dstPitchPtr 定义 了 需 
要 初始 化 的 对 象 。dstPitchPtr 的 pitch 字段 是 dstPitchPtr 指向 的 三 维 数组 在 存储 器 中 的 
宽度 (以 字 节 为 单位 ) ,其 中 包括 添加 到 各 行 末 尾 的 填充 符 。xsize 字段 指定 各 行 的 逻辑 宽度 
(以 字 节 为 单位 ); ysize 字段 指定 二 维 片段 的 高 度 ,以 行为 单位 。 

被 初始 化 的 区 域 的 范围 指定 如 下 : 宽度 为 width 字 节 ; 高 度 为 height ff; 深度 为 
depth, 

如 果 区 域 的 width 大 于 等 于 dstPitchPtr 的 xsize, 则 其 执行 速度 将 远 远 超过 宽度 小 于 
xsize 的 区 域 。 其 次 ,如 果 区 域 的 height 等 于 dstPitchPtr 的 ysize, 则 其 执行 速度 将 超过 高 
度 小 于 ysize 的 区 域 。 

在 使 用 cudaMalloc3D() 分 配 了 dstPitchPtr 的 情况 下 ,此 函数 的 执行 速度 最 快 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer 

(25) cudaMemcpy3D 

函数 功能 : 在 三 维 对 象 间 复制 数据 。 

调用 形式 : 


struct cudaExtent ( 

size t width, height, depth; ); 
struct cudaPos( 

sizets,y,z; ); 
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struct cudaMencpy3DParms ( 

struct cudaArray * srcArray; 

struct cudaPos srcPos; 

struct cudaPitchedPtr srcPtr; 

struct cudaArray * dstArray; 

struct cudaPos dstPos; 

struct cudaPitchedPtr dstPtr; 

struct cudaExtent extent; 

enum cudaMemcpyKind kind; ); 
cudaError t cudaMemcpy3D(const struct cudaMemcpy3DParms * p) 
cudaError t cudaMemcpy3DAsync(const struct cudaMemcpy3DParms * p, cudaStream t stream) 


函数 说 明 : cudaMemcpy3D() 在 两 个 三 维 对 象 间 复 制 数据 。 源 对 象 和 目标 对 象 均 可 以 
是 主 存储 器 、 设 备 存储 器 或 CUDA 数组 。 所 执行 的 复制 操作 的 源 、 目 标 、 范 围 和 类 型 由 
cudaMemcpy3Dparms 结构 体 指定 ,在 使 用 之 前 应 将 其 初始 化 为 0: 


cudaMemcpy3DParms myParms = { 0 }; 


传递 给 cudaMemcpy3D() 的 结构 体 必须 指定 srcArray 或 srcPtr 以 及 dstArray 或 
dstPtr。 传 递 多 个 非 零 源 或 目标 将 导致 cudaMemcpy3D() 返 回 一 个 错误 。 

srcPos 和 dstPos 字段 是 源 和 目标 对 象 的 可 选 偏 移 ,是 在 各 对 象 元 素 的 单位 中 定义 的 。 主 
机 或 设备 指针 的 元 素 应 为 无 符号 字符 。 对 于 CUDA 数组 ,指针 的 所 有 维度 都 必须 在 [0,2048)。 

extent 字段 定义 元 素 中 传输 区 域 的 维度 。 如 果 一 个 数组 参与 复制 , 则 范围 将 根据 该 数 
组 元 素 进行 定义 。 如 果 没 有 任何 CUDA 数组 参与 复制 , 则 范围 将 以 无 符号 字符 元 素 定义 。 

kind 字段 定义 复制 的 方向 。 它 必须 是 cudaMemcpy Host ToHost , cudaMemcpyHost ToDevice 、 
cudaMemcpyDeviceToHost 或 cudaMemcpyDeviceToDevice 之 一 。 

如 果 源 和 目标 均 为 数组 , 且 元 素 大 小 不 同 , 则 cudaMemcpy3D() 将 返回 一 个 错误 。 

源 和 目标 对 象 不 可 重 佛 。 如 果 指 定 的 源 和 目标 对 象 重 释 , 则 将 导致 不 确定 的 行为 。 

如 果 srcPtr 或 dstPtr 的 间距 超过 允许 的 最 大 值 ,cudaMemcpy3D() 将 返回 一 个 错误 。 
使 用 cudaMalloc3D() 分 配 的 cudaPitchedPtr 的 间距 总 是 有 效 的 。 

cudaMemcpy3DAsync() 是 一 种 异步 复制 操作 ,可 选择 传人 非 零 流 参数 ,从 而 将 其 关联 
到 一 个 流 。 如 果 源 或 目标 是 主 对 象 , 则 必须 将 其 分 配 到 cudaMallocHost() 返 回 的 分 页 锁定 
存储 器 中 。 如 果 传 人 了 一 个 未 使 用 cudaMallocHost() 进 行 分 配 的 存储 器 指针 ,那么 它 将 返 
回 一 个 错误 。 

返回 值 : cudaSuccess 

6. 纹理 引用 管理 

纹理 存储 器 属于 只 读 存 储 器 ,但 其 拥有 缓存 机 制 。 它 能 通过 缓存 并 利用 数据 的 局 部 性 
来 提高 效率 。 纹 理 引用 管理 包括 了 纹理 参考 的 创建 、 绑 定 存储 器 到 纹理 、 解 除 纹理 绑 定 等 功 
能 函数 。 与 纹理 存储 器 管理 相关 的 函数 如 下 : 

(1) cudaCreateChannelDesc 

函数 功能 : 通道 描述 符 。 

调用 形式 : template < class T > 

struct cudaChannelFormatDesc cudaCreateChannelDesc < T > 
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函数 说 明 : 返回 通道 描述 符 , 格式 为 f, 各 组 件 的 位 数 为 x、y、z 和 w. 
cudaChannelFormatDesc 定义 如 下 : 


struct cudaChannelFormatDesc { int x, y, z, w;enum cudaChannelFormatKind f; }; 


其 中 ,cudaChannelFormatKind 是 cudaChannelFormatKindSigned , cudaChannelForm- 
atKindUnsigned 或 cudaChannelFormatKindFloat 之 一 。 

返回 值 : cudaSuccess 

(2) cudaBindTexture 

函数 功能 : 将 存储 器 绑 定 到 纹理 。 

调用 形式 : template < class T,int dim,enum cudaTextureReadMode readMode > 

static __inline__ host cudaError. t cudaBindTexture ( sizet * offset, const struct 
texture < T. dim. readMode > ë. texRef.const void * devPtr.const struct cudaChannelFor- 
matDesc&.desc, size_t size = UINT MAX ) 

函数 说 明 : 将 devPtr 指向 的 存储 器 区 域 中 的 size 个 字 节 绑 定 到 纹理 引用 texRef, desc 
描述 从 纹理 中 获取 值 时 如 何 解 释 存 储 器 。offset 参数 是 可 选 的 偏 移 字 节 , 这 与 低级 
cudaBindTexture() 函数 相同 。 所 有 以 前 绑 定 到 texRef 的 存储 器 都 将 解除 绑 定 。 

template < class T,int dim.enum cudaTextureReadMode readMode > 

static __inline__ host | cudaError t cudaBindTexture(size t * offset.const struct 
texture < T.dim.readMode > & texRef.const void * devPtr.size t size = UINT MAX) 

将 devPtr 指向 的 存储 器 区 域 中 的 size 个 字 节 绑 定 到 纹理 引用 texRef。 通 道 描述 符 继 
承 自 纹理 引用 类 型 。offset 参数 是 可 选 的 字符 偏 移 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorInvalidTextureo 

(3) cudaBindTextureToArray 

函数 功能 : 将 CUDA 数组 绑 定 到 纹理 。 

调用 形式 : template < class T,int dim,enum cudaTextureReadMode readMode > 

static inline — host cudaError_t cudaBindTextureToArray ( const struct 
texture < T.dim.readMode > & texRef.const struct cudaArray * cuArray ) 

函数 说 明 : 将 CUDA 数组 array 绑 定 到 纹理 引用 texRef, desc 描述 从 纹理 中 获取 值 时 
如 何 解释 存储 器 。 所 有 以 前 绑 定 到 texRef 的 CUDA 数组 都 将 解除 绑 定 。 

template < class T.int dim,enum cudaTextureReadMode readMode > 

static inline host — cudaError t cudaBindTextureToA rray(const struct texture 
< T.dim.readMode > & texRef.const struct cudaArray * cuArray) 

将 CUDA 数组 array 绑 定 到 纹理 引用 texRef。 通 道 描述 符 继 承 自 CUDA 数组 。 所 有 
以 前 绑 定 到 texRef 的 CUDA 数组 都 将 解除 绑 定 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cuda- 
ErrorInvalidTexture 

(4) cudaUnbindTexture 

函数 功能 : 解除 纹理 绑 定 。 
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调用 形式 : template < class T.int dim. enum cudaTextureReadMode readMode > 


static inline 


|... host | cudaError t cudaUnbindTexture ( const struct texture < T. 
dim.readMode » & texRef ) 

函数 说 明 : 将 绑 定 到 纹理 引用 texRef 的 纹理 解除 绑 定 。 

返回 值 : cudaSuccess 

7. 执行 控制 管理 

执行 控制 管理 包括 配置 设备 启动 .启动 设备 等 功能 ,其 相关 的 函数 如 下 : 

(1) cudaConfigureCall 

函数 功能 : 配置 设备 启动 。 

调用 形式 : cudaErorr_t cudaConfigureCall ( dim3 gridDim. dim3 blockDim. size. t 
sharedMem=0,int tokens = 0 ) 

函数 说 明 ; 为 要 执行 的 设备 调用 指定 网 格 和 块 大 小 ,类 似 于 执行 配置 语法 。 
cudaConfigureCall() 基 于 堆栈 。 每 次 调用 都 会 将 数据 放 入 一 个 执行 堆栈 的 顶端 。 此 数据 包 
含 线程 网 格 和 线程 块 的 大 小 和 针对 调用 的 所 有 参数 。 

返回 值 : cudaSuccess; cudaErrorInvalidConfiguration 

(2) cudaLaunch 

函数 功能 : 启动 设备 函数 。 

调用 形式 : template < class T > cudaError t cudaLaunch ( T entry ) 

函数 说 明 : 在 设备 上 启动 函数 entry. entry 可 以 是 一 个 在 设备 上 执行 的 函数 ,也 可 以 
是 指定 在 设备 上 执行 的 函数 的 字符 串 。entry 必须 声明 为 全 局 函数 。 在 cudaLaunch () 之 
前 必须 存在 cudaConfigureCall() 调 用 ,因为 它 将 从 执行 堆栈 中 弹出 cudaConfigureCall O jit 
入 的 数据 。 

返回 值 : cudaSuccess; cudaErrorInvalidDeviceFunction; cudaErrorInvalidConfiguration 

(3) cudaSetupArgument 

函数 功能 : 配置 设备 启动 。 

调用 形式 : cudaError_t cudaSetupArgument (void * arg.size t count, size_t offset) 
template < class T > cudaError t cudaSetupArgument (T arg,size_t offset) 

函数 说 明 : 将 arg 指向 的 参数 中 的 count 个 字 节 放 到 距离 区 域 传递 参数 offset 个 字 节 
处 ,其 中 区 域 从 offset = 0 开始 。 参 数 存 储 在 执行 堆栈 顶端 。cudaSetupArgument() 之 前 
必须 存在 cudaConfigureCall() 调 用 。 

返回 值 : cudaSuccess 

8. 图 形 学 互 操作 性 

一 些 OpenGL 和 Direct3D 的 资源 可 被 映射 到 CUDA 地 址 空间 , CUDA 可 以 读 
OpenGL 或 Direct3D 写 的 数据 .CUDA 也 可 以 写 数据 供 OpenGL 或 Direct3D 使 用 。 

资源 必须 先 在 CUDA 中 注册 ,才能 在 CUDA 中 被 映射 。 映 射 的 函数 返回 一 个 指向 
cudaGraphicsResource 类 型 结构 体 的 CUDA 图 形 资源 。 资 源 注册 是 潜在 高 消耗 的 ,因此 通 
常 每 个 资源 只 注册 一 次 。 可 以 使 用 cudaGraphicsUnregisterResource() 解 注册 CUDA 图 形 
资源 。 

一 旦 资源 被 注册 到 CUDA ,就 可 以 按 需 要 被 任意 次 地 映射 和 解 映 射 ,映射 和 解 映射 使 
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用 cudaGraphicsMapResources ( ) 和 cudaGraphicsUnmapResources ( )。 可 以 使 用 
cudaGraphicsResourceSetMapFlags() 来 指定 资源 用 处 (只 读 , 只 写 ) ,CUDA 了 驱动 可 以 据 此 
优化 资源 管理 。 

通过 cudaGraphicsResourceGetMappedPointer() 可 以 获得 缓冲 区 返回 的 设备 地 址 空 
IB] ,通过 cudaGraphicsSubResourceGetMappedArray() 可 以 获得 CUDA 数组 返回 的 设备 地 
址 空间 ,内 核 通过 读 写 这 些 空间 操作 被 映射 资源 。 

图 形 学 互 操 作 性 相关 的 函数 如 下 : 

(1) cudaGraphicsMapResources 

函数 功能 : 映射 图 形 资源 ,以 便 CUDA 访问 。 

调用 形式 : cudaError_t cudaGraphicsMapResources ( int count. cudaGraphicsResource t * 
resources.cudaStream t stream—0) 

函数 说 明 : 映射 resources 中 的 count 图 形 资源 ,以 便 CUDA 访问 。 

解 映射 之 前 ,可 在 CUDA 内 核 中 访问 resources 中 的 资源 。 在 CUDA 映射 了 资源 后 ， 
已 被 注册 的 resources 的 图 形 API 不 应 访问 任何 资源 。 如 果 应 用 程序 允许 其 访问 ,将 导致 
不 确定 的 结果 。 

此 函数 提供 了 同步 保证 ,确保 在 它 开始 执行 CUDA 内 核 之 前 的 任何 图 形 调用 已 完成 。 

如 果 resources 包含 重复 项 , 则 将 返回 cudaErrorInvalidResourceHandle。 如 果 已 有 
resources 映射 为 CUDA 访问 , 则 返回 cudaErrorUnknown。 

返回 值 : cudaSuccess; cudaErrorlnvalidResourceHandle; cudaErrorUnknown 

(2) cudaGraphicsResourceGet MappedMipmappedArray 

函数 功能 : 获取 已 映射 图 形 资源 对 应 的 mipmap 数组 。 

调用 形式 ; cudaError_t cudaGraphicsResourceGetMappedMipmappedA rray (cudaMip- 
mappedArray t * mipmappedArray,cudaGraphicsResource_t resource) 

函数 说 明 : 以 x mipmappedArrray 的 形式 返回 已 映射 图 形 资源 对 应 的 mipmap 数组 。 
每 次 映射 resource BÍ. * mipmappedArray 中 设置 的 值 都 会 发 生变 化 。 

如 果 resource 不 是 一 个 纹理 , 则 无 法 通过 阵列 存 取 ,函数 返回 cudaErrorUnknown。 如 
果 resource 没有 被 映射 , 则 函数 返回 cudaErrorUnknown。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidResourceHandle; 
cudaErrorUnknown 

(3) cudaGraphicsResourceGet MappedPointer 

函数 功能 : 获取 已 映射 图 形 资 源 对 应 的 设备 指针 。 

调用 形式 : cudaError_t cudaGraphicsResourceGetMappedPointer (void xx devPtr, 
size_t * size,cudaGraphicsResource_t resource) 

函数 说 明 : 以 * devPtr 的 形式 返回 已 映射 图 形 资源 resource 对 应 的 指针 。 以 x size 的 
形式 返回 从 * devPtr 指针 处 可 访问 的 内 存 大 小 的 字 节 数 。 每 次 映射 resource 时 , * devPtr 
中 设置 的 值 都 会 发 生变 化 。 

如 果 resource 不 是 一 个 缓冲 区 , 则 无 法 通过 指针 被 访问 ,函数 返回 cudaErrorUnknown。 
如 果 resource 没有 被 映射 , 则 函数 返回 cudaErrorUnknown。 

返 El ff: cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidResourceHandle; 
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cudaErrorUnknown 

(4) cudaGraphicsResourceSetMapFlags 

函数 功能 : 设置 映射 图 形 资源 的 使 用 标志 。 

调用 形式 : cudaError_t cudaGraphicsResourceSetMapFlags ( cudaGraphicsResource t 
resource, unsigned int flags) 

函数 说 明 : 设置 映射 图 形 资源 resource 的 标志 位 。 

更 改 flags 将 在 下 一 次 resource 映射 时 生效 。flags 参数 可 以 是 下 列 任何 一 项 。 

(D cudaGraphicsMapFlagsNone: 未 指定 resource 将 被 如 何 使 用 。 此 ,假设 CUDA 
可 读 取 或 写 入 resource, 

@ cudaGraphicsMapFlagsReadOnly: 指定 CUDA RAFA resource, 

@ cudaGraphicsMapFlagsWriteDiscard: 指定 不 会 读 取 resource, 且 将 改写 resource 的 
全 部 内 容 , 因 此 预先 存储 在 resource 中 的 数据 都 不 被 保留 。 

如 果 resource 是 目前 映射 以 便 CUDA 访问 , 则 函数 返回 cudaErrorUnknown。 如 果 
flags 不 是 上 述 值 之 一 , 则 函数 返回 cudaErrorInvalidValue。 

返回 f: cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidResourceHandle; 
cudaErrorUnknown 

(5) cudaGraphicsSubResourceGet MappedArray 

函数 功能 : 获得 已 映射 图 形 资源 的 子 资源 对 应 的 数组 。 

调用 形式 : cudaError_t cudaGraphicsSubResourceGetMappedArray( cudaArray_t * 
array .cudaGraphicsResource t resource, unsigned int arraylndex, unsigned int mipLevel) 

函数 说 明 : 以 x array 的 形式 返回 对 应 于 数组 索引 arrayIndex 和 mipmap 等 级 
mipLevel 的 已 映射 图 形 资源 resource 的 子 资源 的 数组 。 每 次 映射 resource 时 ,array 中 设 
置 的 值 都 会 发 生变 化 。 

如 果 resource 不 是 纹理 , 则 无 法 通过 数组 访问 ,函数 将 返回 cudaErrorUnknown。 如 果 
arrayIndex 不 是 resource 的 一 个 有 效 的 数组 索引 ,函数 将 返回 cudaErrorInvalidValue。 如 
果 mipLevel 不 是 resource 的 一 个 有 效 的 mipmap 等 级 ,那么 函数 将 返回 cudaErrorInvalidValue。 
如 果 resource 没有 被 映射 ,那么 函数 将 返回 cudaErrorUnknown。 

返回 ffi: cudaSuccess; cudaErrorInvalidValue; cudaErrorInvalidResourceHandle; 
cudaErrorUnknown 

(6) cudaGraphicsUnmapResources 

调用 形式 : cudaError t cudaGraphicsUnmapResources (int count. cudaGraphicsResource t 
* resources.cudaStream t stream —0) 

函数 功能 : 解 映射 图 形 资源 。 

返回 值 : cudaSuccess; cudaErrorInvalidResourceHandle; cudaErrorUnknown 

函数 说 明 : 解 映射 resources 中 的 count 图 形 资源 。 

一 旦 解 映射 ,resources 中 的 图 形 资 源 不 能 被 CUDA 访问 ,直到 它们 再 次 被 映射 。 此 函 
数 提 供 了 同步 保证 ,确保 在 cudaGraphicsUnmapResources 开始 发 出 图 形 调用 之 前 ， 
cudaGraphicsUnmapResources 之 前 发 出 的 任何 CUDA 内 核 都 将 完成 。 

如 果 resources 包含 重复 项 , 则 将 返回 cudaErrorInvalidResourceHandle。 如 果 resources 中 
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目前 有 未 映射 为 CUDA 访问 的 资源 , 则 返回 cudaErrorUnknown。 

(7) cudaGraphicsUnregisterResource 

函数 功能 : 注销 图 形 资源 。 

调用 形式 : cudaError_t cudaGraphicsUnregisterResource ( cudaGraphicsResource_t 
resource) 

函数 说 明 : 注销 图 形 资源 resource, 除 非 再 次 注册 ,否则 CUDA 将 无 法 再 访问 此 资源 。 
如 果 resource 是 无 效 的 , 则 函数 返回 cudaErrorInvalidResourceHandle。 

返回 值 : cudaSuccess; cudaErrorInvalidResourceHandle; cudaErrorUnknown 

9. OpenGL 互 操作 性 

CUPA 和 OpenGL 的 互 操 作 要 求 , 在 其 他 任何 运行 时 函数 调用 前 使 用 cudaGLSetGLDeviceO 
指定 CUDA 设备 。 注 意 cudaSetDevice() 和 cudaGLSetDevice() 是 相互 排斥 的 。 

可 以 被 映射 到 CUDA 地 址 空间 的 OpenGL 资源 有 OpenGL 缓冲 区 、 纹 理 和 演 染 缓存 
对 象 。 

使 用 cudaGraphicsGLRegisterBuffer() 注 册 缓 冲 对 象 。 在 CUDA 中 ,缓冲 对 象 表现 为 
设备 指针 ,因此 可 以 在 内 核 中 读 写 或 通过 cudaMemcpy() 调 用 。 

纹理 或 泻 染 缓存 对 象 使 用 cudaGraphicsGLRegiSterlmage() 注 册 。 在 CUDA 中 ,它们 
表现 为 CUDA 数组 ,可 绑 定 到 纹理 参考 ,可 被 内 核 读 写 或 通过 cudaMemcpy2D() 调 用 。 
cudaGraphicsGLRegiSterlmage() 使 用 内 置 的 float 类 型 (如 GL_RGBA_FLOAT32) 和 非 归 
一 化 整数 (如 GL_RGBA8UI ) 支 持 所 有 纹理 格式 。 

与 OpenGL 互 操 作 性 相关 的 函数 如 下 : 

(1) cudaGLGetDevices 

函数 功能 : 获取 与 当前 的 OpenGL 上 下 文 关联 的 CUDA 设备 。 

调用 形式 : cudaError_t cudaGLGetDevices( unsigned int * pCudaDeviceCount,int * 
pCudaDevices, unsigned int cudaDeviceCount,cudaGLDeviceList deviceList ) 

函数 说 明 : 返回 值 * pCudaDeviceCount 对 应 于 当前 的 OpenGL. 上 下 文 CUDA 兼容 的 
设备 的 数量 。 返 回 值 * pCudaDevices 的 cudaDeviceCount 对 应 于 当前 OpenGL 上 下 文 的 最 
多 CUDA 兼容 设备 数量 。 如 果 任 何 正在 使 用 的 当前 OpenGL. 上 下 文 的 图 形 处 理 器 不 支持 
CUDA 功能 , 则 该 函数 调用 将 返回 cudaErrorNoDevice, 

返回 值 : cudaSuccess; cudaErrorNoDevice; cudaErrorUnknown 

(2) cudaGraphicsGLRegisterBuffer 

函数 功能 : 注册 一 个 OpenGL 缓冲 区 对 象 。 

调用 形式 : cudaError t cudaGraphicsGLRegisterBuffer (cudaGraphicsResource * * 
resource. GLuint buffer. unsigned int flags ) 

函数 说 明 : 注册 由 buffer 指定 的 缓冲 区 对 象 ,以 便 CUDA 访问 。 注 册 对 象 的 句柄 返回 
为 resource。 注 册 标 志 flags 指定 使 用 目的 ,如 下 所 示 : 
未 指定 该 资源 将 被 如 何 使 用 。 因 此 ,假设 此 资 


(D cudaGraphicsRegisterFlagsNone 
源 将 由 CUDA 读 取 和 写 入 。 

© cudaGraphicsRegisterFlagsReadOnly 

(3) cudaGraphicsRegisterFlagsWriteDiscard 


指定 CUDA 不 会 写 和 人 此 资源 。 
指定 CUDA 不 会 读 取 此 资源 , 且 将 改 
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写 该 资源 的 全 部 内 容 , 所 以 现存 于 该 资源 中 的 数据 将 不 被 保留 。 

返回 值 : cudaSuccess; cudaErrorInvalidDevice: cudaErrorInvalidValue; ResourceHandle; 
cudaErrorUnknown 

(3) cudaGraphicsGLRegisterImage 

函数 功能 : 注册 一 个 OpenGL. 纹理 或 泻 染 缓冲 区 对 象 。 

调用 形式 : cudaError. t cudaGraphicsGLRegisterImage (cudaGraphicsResource ** 
resource,GLuint image,GLenum target, unsigned int flags) 

函数 说 明 : 注册 由 image 所 指定 的 纹理 或 泻 染 缓冲 区 对 象 ,以 便 CUDA 访问 。 注 册 对 
象 的 句柄 返回 为 resource. target 必须 匹配 对 象 的 类 型 ,并且 必 须 是 GL_TEXTURE_2D、 
GL_TEXTURE_RECTANGLE.GL_TEXTURE_CUBE_MAP.GL_TEXTURE_3D.GL_ 
TEXTURE 2D ARRAY 或 GL RENDERBUFFER 其 中 之 一 。 

注册 标志 flags 指定 使 用 目的 ,如 下 所 示 : 

(D cudaGraphicsRegisterFlagsNone 一 一 未 指定 该 资源 将 被 如 何 使 用 。 因 此 ,假设 此 资 
源 将 由 CUDA 读 取 和 写 和 人 。 

(2) cudaGraphicsRegisterFlagsReadOnly 指定 CUDA 不 会 写 人 此 资源 。 

@ cudaGraphicsRegisterFlagsWriteDiscard 一 一 指定 CUDA 不 会 读 取 此 资源 ,上 且 将 改 
写 该 资源 的 全 部 内 容 , 所 以 现存 于 资源 中 的 数据 将 不 被 保留 。 

(D cudaGraphicsRegisterFlagsSurfaceLoadStore 一 一 指定 CUDA 将 绑 定 这 个 资源 到 一 
个 表面 的 参考 。 

© cudaGraphicsRegisterFlagsTextureGather 一 一 指定 CUDA 将 在 该 资源 上 执行 纹理 
聚集 操作 。 

简洁 起 见 , 以 缩写 形式 表示 所 支持 的 图 像 格式 。 例 如 , {GL_R,GL_RG) X{8,16) 将 扩 
展 为 以 下 4 种 格式 {GL_R8,GL_R16,GL_RG8,GL_RG16): 

(D GL _ RED. GL _ RG, GL _ RGBA, GL _ LUMINANCE, GL _ ALPHA. GL _ 
LUMINANCE_ALPHA.GL_INTENSITY. 

© (GL R.GL RG.GL RGBA) X18.16,16F,32F,8U1,32UI,81,161,321) , 

G (GL. LUMINANCE, GL _ ALPHA, GL _ LUMINANCE _ ALPHA, GL _ 
INTENSITY} X (8.16. 16F. ARB.32F ARB,8UI EXT,16UI EXT.32UI EXT.8I. 
EXT.161 EXT,321 EXT). 


返回 值 : cudaSuccess: cudaErrorInvalidDevice: cudaErrorlnvalidValue; cudaError- 


InvalidResourceHandle; cudaErrorUnknown 
(4) cudaWGLGetDevice 
函数 功能 : 获取 与 hGpu 相关 的 CUDA 设备 。 
调用 形式 : cudaError_t cudaWGLGetDevice(int * device, HGPUNV hGpu) 
函数 说 明 : 返回 与 hGpu 相关 的 CUDA 设备 。 
返回 值 : cudaSuccess 
10. Direct3D 互 操作 性 
Direct3D 互 操作 性 支持 Direct3D9 ,Direct3D10 和 Direct3D11 。 
CUDA 一 次 只 能 和 一 个 Direct3D 设备 互 操作 , 且 CUDA 和 Direct3D 设备 必须 在 同一 个 
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GPU 上 创建 ,同时 ,Direct3D 设备 必须 使 用 D3DCREATE HARDWARE. VERTEXPROCESSING 
标签 创建 。 

CUDA 和 Direct3D 的 互 操作 要 求 : 在 任何 其 他 的 运行 时 函数 调用 前 ,使 用 
cudaD3D9SetDirect3DDeviceO ,cudaD3D10SetDirect3DDevice() fil cudaD3D11SetDirect3DDevice( ) 
指定 Direct3D 设备 。 可 用 cudaD3D9GetDeviceO ,cudaD3D10GetDeviceO ffl cudaD3Dl 1GetDeviceO 
检索 并 关联 到 一 些 适 配器 的 CUDA 设备 。 

可 以 被 映射 到 CUDA 地 址 空间 的 Direct3D 资源 有 Direct3D 缓冲 区 纹理 和 表面 。 可 
以 使 用 cudaGraphicsD3D9RegisterResource () , cudaGraphicsD3DlORegisterResource ( ) 和 
cudaGraphicsD3D11RegisterResource() 注 册 这 些 资源 。 

(1) cudaD3D10GetDevice 

函数 功能 : 获取 适配器 的 设备 号 。 

调用 形式 : cudaError_t cudaD3D10GetDevice(int * device, IDXGIAdapter * pAdapter) 

函数 说 明 : 返回 对 应 于 由 IDXGIFactory::EnumAdapters 获得 的 适配器 pAdapter 的 
CUDA 兼容 设备 * device, 仅 当 适 配器 pAdapter 对 应 的 设备 是 CUDA 兼容 的 ,该 调用 才 会 
成 功 。 

返回 值 : cudaSuccess; cudaErrorInvalidValue; cudaErrorUnknown 

(2) cudaD3D10GetDevices 

函数 功能 : 获取 对 应 于 Direct3D10 设备 的 CUDA 设备 。 

调用 形式 : cudaError_t cudaD3D10GetDevices (unsigned int * pCudaDeviceCount, 
int * pCudaDevices. unsigned int cudaDeviceCount，ID3D10Device * pD3DlODevice. 
cudaD3Dl0DeviceList deviceList) 

函数 说 明 : 返回 x pCudaDeviceCount 表示 对 应 于 Direct3D 10 的 设备 pD3D10Device 
的 CUDA 兼容 的 设备 数量 。 返 回 * pCudaDevices 表示 最 多 cudaDeviceCount 个 对 应 于 
Direct3D 10 设备 pD3D10Device 的 CUDA 兼容 设备 。 

如 果 任 何 被 用 来 浑 染 pDevice 的 GPU 不 支持 CUDA, 那 么 该 调用 将 返回 
cudaErrorNoDevice。 

返回 值 : cudaSuccess: cudaErrorNoDevice; cudaErrorUnknown 

(3) cudaGraphicsD3D10RegisterResource 

函数 功能 : 注册 一 个 Direct3D10 资源 ,以 便 CUDA 访问 。 

调用 形式 : cudaError_t cudaGraphicsD3D10RegisterResource ( cudaGraphicsResoure ** 
resource, ID3D10Resource * pD3DResource, unsigned int flags ) 

函数 说 明 : 注册 Direct3D 10 资源 pD3DResource 以 便 CUDA 访问 。 

如 果 此 调用 成 功 , 则 应 用 程序 能 够 在 资源 注销 之 前 映射 和 解 映射 此 资源 ,直到 它 通 过 调 
用 函数 cudaGraphicsUnregisterResource() 进 行 注销 。 

此 调用 开销 较 高 ,不 应 在 交互 式 应 用 程序 的 每 一 帧 中 进行 调用 。 

pD3DResource 的 类 型 必须 为 以 下 之 一 : 

(D ID3D10Buffer 一 一 可 以 通过 一 个 设备 指针 访问 。 

@ ID3D10TexturelD 一 一 纹理 的 个 体 子 资源 可 以 通过 数组 访问 。 

@ ID3D10Texture2D 一 一 纹理 的 个 体 子 资源 可 以 通过 数组 访问 。 
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@ ID3D10Texture3D 一 一 纹理 的 个 体 子 资源 可 以 通过 数组 访问 。 

Flags 参数 可 用 于 注册 时 指定 其 他 参数 ,此 参数 的 有 效 值 如 下 : 

未 指定 该 资源 将 被 如 何 使 用 。 

指定 CUDA 将 绑 定 该 资源 到 一 个 


(D cudaGraphicsRegisterFlagsNone 


@ cudaGraphicsRegisterFlagsSurfaceLoadStore 
表面 的 参考 。 

(3) cudaGraphicsRegisterFlagsTextureGather 
聚集 操作 。 

并 非 所 有 上 述 类 型 的 Direct3D 资源 均 可 用 于 与 CUDA 进行 互 操作 。 下 面 列举 了 部 分 
限制 : 

(D 主 呈 现 目标 未 向 CUDA 注册 。 

@ 分 配 为 共享 的 资源 未 向 CUDA 注册 。 

O 纹理 格式 不 是 1,2 或 4 个 通道 的 8 位 、16 位 或 32 位 整数 或 浮 点 数 的 数据 不 能 共享 。 

@ 深度 或 模板 格式 表面 不 能 共享 。 

支持 DXGI 格式 的 完整 列表 如 下 ,紧凑 符号 A_{B,C.D} 表 示 A_B.A_C 和 A_D: 

(D DXGI FORMAT A8 UNORM, 

@ DXGI FORMAT B8G8R8A8 UNORM, 

@ DXGI FORMAT RI16 FLOAT, 

@ DXGI FORMAT RI16GI6B16A16 ( FLOAT.SINT.SNORM.UINT.UNORM), 

(9 DXGI FORMAT R16G16 (FLOAT.SINT.SNORM.UINT.UNORM )} 。 

© DXGI FORMAT R8 | SINT.SNORM.UINT.UNORM )} 。 

@ DXGI FORMAT R16 ( SINT.SNORM.UINT.UNORM )} 。 

@ DXG1. FORMAT R32 FLOAT. 

(9 DXGI FORMAT R32G32B32A32 | FLOAT.SINT.UINT }. 

(0 DXGI FORMAT R32G32 ( FLOAT.SINT.UINT }. 

O DXGI FORMAT R32 ( SINT,UINT) 。 

(2 DXGI. FORMAT R8G8B8A8 | SINT. SNORM. UINT. UNORM, UNORM _ 
SRGB )} 。 

(3 DXGI FORMAT R8G8. { SINT.SNORM.UINT.UNORM }. 

如 果 pD3DResource 类 型 不 正确 或 已 被 注册 ,那么 返回 cudaErrorInvalidResourceHandle., 
如 果 pD3DResource 不 能 被 注册 ,那么 返回 cudaErrorUnknown。 


返回 值 : cudaSuccess: cudaErrorInvalidDevice: cudaErrorlnvalidValue; cudaError- 


指定 CUDA 将 在 该 资源 上 执行 纹理 


InvalidResourceHandle; cudaErrorUnknown 

l1. 错误 处 理 

错误 处 理 包含 了 运行 时 调用 的 最 新 错误 和 返回 错误 的 消息 字符 串 , 有 利于 帮助 开发 者 
快速 发 现 和 定位 程序 中 的 错误 ,提高 编程 效率 。 

(1) cudaGetLastError 

函数 功能 : 返回 运行 时 调用 的 最 新 错误 。 

调用 形式 : cudaError_t cudaGetLastError(void) 

函数 说 明 : 返回 同一 主线 程 中 运行 时 调用 所 返回 的 最 新 错误 ,并 将 其 重 置 为 cudaSuccess。 
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返回 值 : cudaSuccess; cudaErrorInitializationError; cudaErrorLaunchFailure; cuda- 
ErrorPriorLaunchFailure; cudaErrorLaunchTimeout; cudaErrorLaunchOutOfResources; 
cudaErrorInvalidDeviceFunction; cudaErrorInvalidConfiguration; cudaErrorInvalidDevice; 
cudaErrorInvalidValue; cudaErrorInvalidDevicePointer; cudaErrorInvalidTexture; cuda- 
ErrorInvalid TextureBinding ; cudaErrorInvalidChannelDescriptor; cudaErrorTextureFetchFailed ; 
cudaErrorTextureNotBound; cudaErrorSynchronizationError; cudaErrorUnknown; cuda- 
ErrorInvalidResourceHandle; cudaErrorNotReady 

(2) cudaGetErrorString 

函数 功能 : 返回 错误 中 的 消息 字符 串 。 

调用 形式 : const char * cudaGetErrorString (cudaError_t error) 

返回 值 : 指向 NULL 终止 字符 串 的 char * 指针 。 


4.6 程序 示例 

本 节 通 过 例 程 简单 介绍 CUDA 编程 常识 .常用 的 函数 ,并 说 明 主 机 和 设备 之 间 如 何 传 
递 参数 .如 何 工作 。 

4.6.1 Hello World 实现 


首先 在 主机 端 ,建立 一 个 . cpp 文件 ,使 用 如 下 程序 ,可 以 在 屏幕 上 显示 Hello World. f& 
序 如 下 ,运行 的 结果 如 图 4-54 所 示 。 


int main( void ) 

{ 
printf( "Hello World CPU\n" ); 
getchar(); 
return 0; 


T) DaVisual Studio 2010 codes\te.. 


图 4-54 CPU 显示 Hello World 


这 段 程序 很 简单 .是 在 主机 端 实现 的 。 现 在 需要 将 其 进行 适当 的 修改 ,使 其 可 以 在 
GPU 中 和 运行。 在 GPU 上 运行 的 函数 ,通常 被 称 为 核 函 数 (kernel) ,程序 如 下 ,运行 结果 如 
图 4-55 所 示 。 


# include < iostream> 
* include <cuda runtime.h> 


. global void kernel( void ) 
í 
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printf( "Hello, World GPUNn" ); 
] 


int main( void ) ( 
kernel <<< 1,1 >>>(); 
cudaDeviceSynchronize(); 
getchar(); 
return 0; 


图 4-55 GPU 显示 Hello World 


该 程序 运行 的 流程 是 : 先 运 行 CPU 内 的 主 函 数 ,通过 kernel 函数 开始 调用 GPU 内 的 
程序 ,在 GPU 内 输出 完 Hello World 之 后 ,继续 在 CPU 内 运行 程序 至 程序 结束 。 

(D kernel <<< 1,1 >>0; 

开辟 了 一 个 线程 块 中 的 一 个 线程 ,在 这 个 线程 中 输出 了 Hello World。 因 为 没有 数据 
传输 进入 GPU ,因此 可 以 不 用 cudaMalloc 开辟 内 存 ( 显 存 ) 空 间 。 

®© cudaDeviceSynchronizeO ; 

这 个 函数 是 CUDA 内 的 同步 函数 ,可 以 暂停 CPU 的 进程 ,等 待 GPU 内 的 函数 都 运行 
完成 之 后 ,继续 向 下 运行 CPU 内 的 程序 。 


4.6.2 参数 传递 


前 面 的 例 程 中 没有 将 主机 的 参数 传送 给 设备 机 ,但 实际 应 用 中 ,必须 将 大 量 参 数 传递 给 
GPU ,借助 GPU 高 强度 的 速 浮 点 计算 能 力 , 大 大 提升 处 理 效 率 。 本 节 给 出 一 个 将 主机 端的 
两 个 数字 在 设备 端 加 和 的 程序 ,程序 实现 如 下 ,实现 的 结果 如 图 4-56 所 示 。 


# include < cuda_runtime. h> 
* include < iostream > 


int add d( inta, int b) ( 
returna * b; 


. device __ 


) 


. global void add( inta, int b, int xc ) ( 
*c = add d( a, b); 
) 


int main( void ) 
{ 
int c; 


int * ptr; 
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cudaMalloc( (void* * )&ptr, sizeof(int) ); 

add <<<1,1 >>>( 1, 2, ptr ); 

cudaMemcpy( &c, ptr, sizeof(int),cudaMemcpyDeviceToHost ); 
printf( "1 + 2 = %dNn", c); 

cudaFree( ptr ); 

getchar(); 

return 0; 


图 4-56 ”参数 传递 


这 套 程序 的 运行 流程 如 下 : 

(D 程序 先 从 主 函数 进入 ,在 CPU 中 定义 了 变量 c 和 指针 ptr, 同 时 通过 cudaMalloc PR 
数 开 辟 了 GPU 中 的 内 存 。 

@ 将 数字 和 指针 一 同 传送 到 GPU 中 ,在 _global_ 下 的 add 函数 中 运行 。 

O add 函数 并 没有 实现 计算 ,而 是 继续 调用 同 在 GPU 中 处 理 的 _device .fE device | 
中 通过 add d 函数 实现 了 计算 ,并 将 计算 后 的 结果 返回 给 __global__。 

@ GPU 内 程序 运行 完 之 后 ,GPU 通过 cudaMemepy 将 GPU 内 计算 后 的 结果 返回 到 
CPU 中 。 

C 在 屏幕 上 输出 结果 ,并 释放 指针 ,程序 运行 结束 。 

该 程序 的 计算 过 程 虽然 简单 ,不 过 通过 几 次 调用 可 以 帮助 理解 CPU 和 GPU 之 间 如 何 
进行 数据 传递 ,以 及 GPU 内 部 的 函数 如 何 被 调用 。 

需要 注意 的 是 : 

(D cudaMallocO 函数 

cudaMalloc() 是 分 配 内 存 的 函数 ,该 函数 类 似 于 C 语言 中 的 malloc O 函数 ,不 过 该 函数 
的 功能 不 是 在 CPU 中 分 配 内 存 ,而 是 在 GPU 中 分 配 内 存 , 这 个 内 存 也 仅 供 GPU 在 计算 时 
使 用 。 

程序 cudaMalloc( (void ** ) & ptr. sizeof(int) ) 中 ,第 一 个 参数 类 型 是 指针 ,指向 用 于 
保存 新 分 配 地 址 的 变量 ; 第 二 个 参数 表示 分 配 内 存 的 大 小 ,因为 是 int 型 的 参数 ,所 以 使 用 
sizeof (int) 就 可 以 直接 分 配 好 int 型 数据 所 需要 的 空间 。 函 数 的 详细 用 法 可 参见 4. 5.2 Wr. 

但 是 cudaMalloc 函数 也 存在 着 局 限 性 , 它 本 身 为 CUDA C 语言 ,与 标准 的 C 语言 还 是 
有 很 大 的 不 同 ,这 种 不 同 总 结 为 以 下 四 点 : 

a. cudaMalloc() 分 配 的 指针 可 以 传递 给 设备 上 执行 的 函数 。 

b. 设备 中 的 程序 可 以 使 用 cudaMalloc() 函 数 分 配 的 指针 进行 内 存 的 读 / 写 操作 。 

c. cudaMalloc() 分 配 的 指针 可 以 传递 给 主机 上 的 执行 函数 。 

d. 不 能 在 主机 程序 中 使 用 cudaMalloc() 分 配 的 指针 进行 内 存 的 读 / 写 操作 。 

© cudaMemcpy() 

cudaMemcpy() 是 数据 传递 函数 ,同样 类 似 于 标准 C 语言 的 memcpy() ,调用 的 方式 也 
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很 相似 ,但 是 cudaMemcpy() 仅 限于 GPU 内 的 数据 传递 。 需 要 注意 的 是 最 后 一 个 参数 
cudaMemcpyDeviceToHost, 这 个 参数 就 是 和 标准 C 语言 不 同 的 地 方 ,这 个 参数 说 明 在 运行 
时 , 源 指 针 是 一 个 设备 指针 ,而 目标 指针 是 一 个 主机 指针 。 当 然 有 些 时 候 也 会 使 用 
cudaMemcpyHostToDevice, 它 与 之 前 是 完全 相反 的 含义 , 即 源 指针 位 于 主机 上 ,而 目标 指 
针 位 于 设备 上 。 

cudaMemcpyDeviceToDevice 指 源 指 针 和 目标 指针 都 位 于 设备 机 上 。 

cudaMemcpyHostToHost 指 源 指针 和 目标 指针 都 在 主机 端 , 当 然 , 如 果 两 者 都 在 主机 
端 , 则 可 以 直接 调用 标准 C 语言 中 的 memepy O PRICE BIUFR I] ff] J lE , 

(3) cudaFreeO 

cudaFree() 是 释放 指针 的 函数 ,也 是 类 似 于 标准 C 语言 中 的 free O PRÉC. Tfi HL 53. free() 
的 区 别 同 上 述 cudaMallocO 5j memcpy() 的 区 别 类 似 ,free() 只 能 对 主机 端的 指针 进行 释 
放 。 在 主机 端 定义 的 指针 如 果 曾 经 被 调用 到 过 设备 端 ,就 需要 用 cudaFree O 函数 来 释放 这 
个 指针 。 

CD — global. WI device - 

限定 符 __global__ 声 明 的 函数 为 内 核 。 此 类 函数 在 设备 上 执行 , 仅 可 通过 主机 才能 进 
行 调用 。 

限定 符 _device_ 声明 的 函数 在 设备 上 执行 , 仅 可 通过 设备 调用 。 


4.6.3 同步 函数 


同步 函数 是 开发 CUDA 程序 所 需 的 重要 函数 之 一 。 很 多 复杂 的 程序 需要 等 待 所 有 设 
备 端 都 执行 完 后 再 继续 进行 主机 端的 程序 ,这 时 就 需要 同步 函数 暂时 阻塞 主机 端 程序 的 运 
行 ,直到 所 有 设备 端的 程序 执行 完毕 。 

当 数 据 从 CPU 端 传送 到 GPU 端 时 ,GPU 开始 处 理 数据 ,但 是 在 不 使 用 同步 函数 的 情 
况 下 ,CPU 端 也 将 继续 运行 程序 ,直到 需要 GPU 中 的 数据 时 才 停 下 , 若 不 需要 GPU 中 的 数 
据 , 则 直接 运行 结束 。 如 图 4-57 所 示 为 不 使 用 同步 函数 


所 示 : 


的 情况 下 ,CPU 与 GPU 执行 任务 的 顺序 。CPU 端 在 执 ;| 1 9 d 
行 任务 2 时 将 数据 传递 给 GPU, GPU 开始 执行 任务 A | ES : | 
和 任务 ,因为 没有 使 用 同步 函数 ,所 以 CPU 将 不 会 等 | 一 了 一， i 
fi GPU 的 结果 ,继续 执行 任务 3 和 任务 4。 直 到 任务 4 ! 任务 ! | | | 
快 完成 的 时 候 ,GPU 处 理 完成 ,将 结果 返回 给 了 CPU, | i oi | 
当然 也 有 可 能 计算 机 在 完成 任务 4 之 后 ,GPU 仍然 没有 1 LER | | 
工作 完成 。 因 为 GPU 执行 完成 的 时 间 不 可 控 , 所 以 会 给 一 | DERI . 
编程 带 来 很 大 的 麻烦 。 | I ' [ss | 

本 节 将 对 前 面 的 程序 进行 适当 修改 ,在 不 使 用 同步 | | ! 
函数 的 情况 下 ,分 别 在 主机 和 设备 端 上 添加 几 个 输出 ,来 | i | 
查看 主机 端 和 设备 端的 执行 顺序 。 修 改 后 的 程序 如 下 | (R | 


$ include < cuda_runtime.h> 
# include < iostream> 4-57 ”执行 顺序 
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. device int add d( inta, int b) ( 
printf("Hello World 3n"); 
returna * b; 


) 


. global void add( inta, int b, int *c ) { 
printf("Hello World 2n"); 
*c = add d( a, b); 
printf("Hello World 4\n"); 


) 
int main( void ) 
{ 

int c; 

int * ptr; 


cudaMalloc( (void * * )&ptr, sizeof(int) ); 

printf("Hello World 1n"); 

add «««1,1»»»( 1, 2, ptr ); 

printf("Hello World 5\n"); 

cudaMemcpy( &c, ptr, sizeof(int),cudaMemcpyDeviceToHost ); 
printf("Hello World 6n"); 

printf( "1 + 2 = %d\n", c); 

cudaFree( ptr ); 

getchar(); 

return 0; 


) 
程序 运行 结果 如 图 4-58 所 示 。 


HelloWorld. 

Hello_World_5 
Hello_Uorld_2 
Hello_World_3 
Hello_World_4 


ljHello World 6 
1+2=3 


r7 
=== 


图 4-58 参数 传递 程序 运行 结果 


运行 程序 可 以 采用 单 步调 试 的 方法 ,但 是 单 步 调试 很 难 把 过 程 表示 出 来 ， 


因此 采用 输出 


几 个 Hello. World 和 数字 的 方式 来 查看 实际 应 用 中 主机 和 设备 之 间 执 行 的 顺序 。 通 过 输 
出 的 顺序 ,可 以 看 出 主机 端 使 用 add O 函数 将 数据 传递 到 设备 端 之 后 ,主机 端 仍然 在 向 下 执 


行程 序 ,在 设备 端 输出 Hello World 2 之 前 主机 端 已 输出 Hello World 5. 
为 了 保证 线程 的 同步 ,CUDA 推出 了 线程 同步 函数 : 


cudaDeviceSynchronize() 函 数 可 以 暂时 阻塞 CPU 内 的 程序 , 待 所 有 设备 端 内 的 线程 都 
运行 完 之 后 再 继续 主机 端的 程序 。 这 样 ,可 以 保证 设备 端 内 的 线程 同步 ,避免 很 多 不 必要 的 


麻烦 。 
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与 其 相似 的 还 有 另外 两 个 同步 函数 cuda ThreadSynchronizeO fl cudaStreamSynchronizeC) 


函数 。 


cudaThreadSynchronize() 的 使 用 方法 和 效果 与 cudaDeviceSynchronize() 基 本 相同 ,但 


它 是 一 种 较 旧 的 表达 方式 ,并 且 可 控 性 不 强 , 所 以 不 推荐 使 用 。 


cudaStreamSynchronize() 函数 接受 一 个 stream ID, 它 将 阻止 CPU 执行 直到 GPU 端 
完成 对 应 stream ID 的 所 有 CUDA 任务 ,但 其 他 stream 中 的 CUDA 任务 可 能 执行 完毕 也 


可 能 没有 执行 完 。 
在 上 述 程 序 中 加 上 同步 函数 的 程序 如 下 : 


# include < cuda runtime.h» 
# include < iostream> 


. device int add_d( inta, intb ) { 
printf("Hello World 3\n"); 
returna + b; 


} 


. global void add( inta, int b, int *c) ( 
printf("Hello World 2n"); 
*c = add d( a, b); 
printf("Hello World 4Wn"); 


int main( void ) 


int c; 

int * ptr; 

cudaMalloc( (void * * )&ptr, sizeof(int) ); 
printf("Hello World 1n"); 

add <<<1,1>>>( 1, 2, ptr ); 
cudaDeviceSynchronize(); 

printf("Hello World 5Wn"); 

cudaMemcpy( &c, ptr, sizeof(int),cudaMemcpyDeviceToHost ); 
printf("Hello World 6n"); 

print£( " 1 + 2 = %d\n", c); 

cudaFree( ptr ); 

getchar(); 

return 0; 


) 


同步 函数 运行 后 的 结果 就 是 正常 的 CPU a DAVisual Studio 2010 codes\te. ccs SES 


Hello_World_1 


GPU 一 CPU 的 流程 了 ,如 图 4-59 所 示 。 PERR | STE 
调用 GPU 都 必须 使 用 同步 函数 ,适当 利用 GPU 计 ° 
算 的 时 间 让 CPU 适度 地 进行 一 些 简单 计算 也 可 以 
提高 整体 计算 效率 。 当 需要 同步 时 ,CPU 可 以 在 将 


数据 传递 到 GPU 之 后 ,直接 使 用 cudaMemcpy() PR 
数 等 待 GPU 的 数据 传送 回来 以 实现 同步 。 图 4-59 同步 后 的 结果 


第 4 章 ”GPU 和 CUDA 的 介绍 和 应 


4.7 线程 层次 


前 面 的 介绍 都 没有 牵涉 较 多 数据 的 计算 ,在 使 用 CUDA 时 也 都 只 开启 了 一 个 线程 块 中 
的 一 个 线程 ,但 是 在 计算 数据 量 较 大 时 就 必须 开启 多 个 线程 。 本 节 将 从 线程 层次 的 角度 通 
过 例子 来 逐步 介绍 如 何 使 用 GPU 去 做 并 行 计算 。 其 中 4. 7. 1 节 是 对 核 函数 和 线程 层次 的 
总 述 ,后 面 几 节 则 通过 例 程 给 出 说 明 。 


4.7.1 核 函 数 调 用 和 线程 层次 介绍 


GPU 中 的 每 一 个 线程 都 有 其 特定 的 线程 ID, 通 过 线程 ID 可 以 明确 地 给 每 一 个 线程 分 
配 任务 ,线程 的 ID 信息 由 变量 threadIdx 和 blockIdx 给 出 。 

在 GPU 的 结构 中 ,线程 块 (block) 和 每 个 块 中 的 线程 (thread) 都 不 是 一 维 的 。 线 程 块 
可 以 是 一 维 的 .二 维 的 ,也 可 以 是 三 维 的 ,同样 对 于 每 个 线程 块 中 的 线程 也 可 以 是 一 维 、 二 
维 \ 三 维 。 如 图 4-60 所 示 是 二 维 线程 块 和 二 维 线程 的 例子 。 


图 4-60 二 维 线程 块 和 线程 


1. 核 函数 调用 
在 前 面 的 例 程 中 ,包含 了 核 函数 的 调用 。 核 函数 的 表述 形式 为 : 


Func <<< Dg, Db, Ns, s >>>( parameter); 


其 中 : 

(1) Dg 的 类 型 为 dim3 ,指定 线程 网 格 的 维度 和 大 小 ,线程 网 格 是 二 维 的 ,但 是 为 了 能 
够 在 dim3 类 型 中 使 用 , 仅 有 x 维度 和 y 维度 上 有 数据 ,所 以 Dg. xX Dg. y 等 于 所 启动 线程 
块 的 数量 ,Dg. z 设 定 为 0。 在 使 用 时 如 果 不 用 dim3 类 型 的 变量 ,直接 输入 int 型 变量 , 则 认 
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为 是 一 维 变量 ,Dg. y 和 Dg. z 也 会 自动 设置 为 0。 

(2) Db 的 类 型 为 dim3 ,指定 线程 块 的 维度 和 大 小 ,Db. x * Db. y * Db. z 等 于 每 个 线程 
块 的 线程 数量 。 在 使 用 时 如 果 不 用 dim3 类 型 的 变量 ,直接 输入 inc 型 变量 , 则 认为 是 一 维 
变量 ,Db. y 和 Db. z 也 会 自动 设置 为 0。 

(3) Ns 的 类 型 为 size_t', 指 定 为 此 调用 动态 分 配 的 共享 存储 器 的 大 小 ( 除 静 态 分 配 的 存 
储 器 ) ,这 些 动 态 分 配 的 存储 器 可 供 声明 为 extern 的 数组 使 用 ,Ns 是 一 个 可 选 参数 ,默认 值 
为 0。 

(4) s 的 类 型 为 cudaStream_t, 指 定 相 关 流 ; s 是 一 个 可 选 参数 ,默认 值 为 0。 

2. 一 维 线程 索引 

为 了 在 使 用 时 可 以 明确 地 调用 每 一 个 线程 ,CUDA C 语言 定义 了 threadIdx 变量 专门 
用 来 进行 线程 索引 。 

threadIdx 是 CUDA C 语言 的 内 建 变量 ,通常 用 一 个 三 维 数组 来 表示 。 使 用 三 维 数组 
的 方便 之 处 在 于 可 以 简明 地 表示 一 维 、 二 维和 三 维 线程 索引 ,进而 方便 地 表示 一 维 、 二 维和 
三 维 线程 块 (thread block) 。 这 样 ,无 论 是 数组 ,矩阵 还 是 体积 的 计算 ,都 可 以 很 容易 地 使 用 
CUDA 进行 运算 。 

线程 的 索引 与 线程 ID 之 间 存 在 着 直接 的 换算 关系 ,对 于 一 个 索引 为 (x，y，z) 的 线程 
来 说 : 

(D 如 果 线 程 块 是 一 维 的 , 则 线程 ID— x. 

© 如 果 线 程 块 是 二 维 的 ,假设 块 尺寸 为 (Dx,Dy) ,那么 线程 ID 一 x 十 yx Dx, 

© 如 果 线 程 块 是 三 维 的 ,假设 其 尺寸 为 (Dx, Dy Dz) ,那么 线程 ID 一 x 十 yx Dx 十 z* 
Dx * Dy, 

3, 二 维 、 三 维 线程 索引 

使 用 过 程 中 线程 块 可 以 设 定 为 二 维 的 或 三 维 的 ,这 时 就 需要 从 较 高 的 维度 来 查找 线程 
的 数量 。 所 以 CUDA 定义 了 如 下 几 个 参数 来 索引 线程 : 

(D gridDim 一 一 代表 线程 格 的 尺寸 ,gridDim. x 为 x 轴 尺 寸 ,gridDim. y X y WRF, 
gridDim. z 为 z 轴 尺寸 。 

如 图 4-60 所 示 ,图 中 的 线程 格 中 包含 的 gridDim. x—3.gridDim. y—2.gridDim. z 二 1。 

@ blockDim 一 一 代表 线程 块 的 尺寸 ,blockDIm. x 为 x 轴 尺 寸 ,blockDIm. y 为 y 轴 尺 
才 ,blockDIm. z 为 z 轴 尺寸 。 

用 图 4-60 中 的 Block(1,1) 来 说 ,其 内 部 的 线程 尺寸 为 : blockDim. x— 4. blockDim. y= 
3,blockDim. z 一 1。 

© blockIdx 一 一 代表 线程 块 在 线程 格 中 的 索引 值 .也 可 以 理解 为 一 个 线程 块 在 其 线程 
格 中 的 坐标 ,blockIdx. x 为 x 轴 上 的 坐标 ,blockIdx. y 为 y 轴 上 的 坐标 ,blockIdx.z 为 z 轴 
上 的 坐标 。 

仍 使 用 图 4-60,.Block(1,1) 的 索引 值 为 : blockIdx. x= 1. blockIdx. y= 1. blockIdx. z= 
0。 通 常情 况 下 二 维 的 就 不 需要 再 写 blockIdx. z 一 0, 默 认 其 为 0; 同样 ,一 维 的 也 不 需要 特 
意 写 出 blockIdx. y 和 blockIdx. z, 

@ threadIdx 一 一 线程 索引 ,在 前 面 已 经 做 过 简单 的 介绍 ,此 处 不 再 缆 述 。 
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4. thread 表达 式 

在 调用 核 函数 时 ,一 般 会 使 用 一 维 或 者 二 维 的 线程 块 和 线程 ,虽然 线程 格 和 线程 块 的 划 
分 方式 不 同 ( 一 维 、 二 维 、 三 维 ), 但 是 在 CUDA 程序 进行 的 任意 时 刻 ,每 一 个 线程 的 
threadID 都 是 唯一 标识 且 不 可 改变 的 。 下 面 给 出 threadID 的 完整 表达 式 : 

O ERREX grid 为 一 维 ,block 为 一 维 : 


. device int kernel G1 B1() 
{ 
int threadID = blockIdx.x * blockDim.x 
+ threadIdx. x; 


© 主 函数 定义 grid 为 一 维 ,block 为 二 维 : 


__device__ int kernel G1 B2() 
1 
int threadID - blockIdx.x * blockDim.x * blockDim.y 
* threadIdx.y * blockDim.x 
+ threadIdx.x; 


) 
© 主 函 数 定义 grid 为 一 维 ,block 为 三 维 : 


. device ^ int kernel G1 B3() 
{ 
int threadID = blockIdx.x * blockDim.x * blockDim.y * blockDim.z 
+ threadIdx.z * blockDim.y * blockDim.x 
+ threadIdx.y * blockDim.x 
* threadIdx.x; 


) 
CD ERGEN grid 为 二 维 ,block 为 一 维 : 


. device int kernel_G1_B1() 

( 
int blockID = blockIdx. y * gridDim.x + blockldx.x; 
int threadID - blockID * blockDim.x * threadIdx.x; 


) 
© 主 函 数 定义 grid JJ — AE. block 为 二 维 : 


. device int kernel G2 E2() 
{ 
int blockID = blockIdx.y * gridDim.x + blockIdx. x; 
int threadID = blockID * blockDim.x * blockDim. y //block 乘 进来 是 为 了 确认 小 块 
+ threadldx.y * blockDim.x 
+ threadIdx.x; 
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主 函数 定义 grid 为 二 维 ,block 为 三 维 : 


. device int kernel G2 B3() 
{ 
int blockID = blockIdx.y * gridDim.x + blockIdx.x; 
int threadID - blockID * blockDim.x * blockDim.y * blockDim.z 
+ threadIdx.z * blockDim.x * blockDim.y 
* threadIdx. y * blockDim.x 
* threadIdx.x; 


} 
C) 主 函数 定义 grid Jy — Af. block 为 一 维 : 


__device — int kernel G3 _B1() 
{ 
int blockID = blockIdx.z * gridDim.x * gridDim.y 
* blockIdx. y * gridDim.x 
+ blockIdx.x; 
int threadID = blockID * blockDim.x + threadIdx.x; 


} 
®© ERUEN grid 为 三 维 ,block 为 二 维 : 


..device | int kernel G3 B2() 
[ 
int blockID = blockIdx.z * gridDim.x * gridDim.y 
+ blockIdx.y * gridDim.x 
+ blocklIdx.x; 
int threadID = blockID * blockDim.x * blockDim.y 
+ threadIdx.y * blockDim.x 
+ threadIdx.x; 


H 
(9) 主 函数 定义 grid Jy — 4f. block 7g = 4f: 


..device int kernel G3 B3() 
{ 
int blockID = blockldx.z * gridDim.x * gridDim.y 
* blockldx.y * gridDim.x 
* blockldx.x; 
int threadID - blockID * blockDim.x * blockDim.y * blockDim.z 
+ threadIdx.z * blockDim.x * blockDim.y 
* threadIdx.y * blockDim.x 
* threadldx.x; 
) 


@@ 同样 维度 的 线程 也 可 以 有 不 同 的 表达 方式 .最 常用 的 就 是 二 维 线程 格 和 二 维 线程 
块 ,这 种 写法 常常 在 处 理 图 像 数 据 时 使 用 ,如 下 所 示 : 


. device int kernel G2 B2() 
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const int x = blockIdx.x * blockDim.x + threadIdx.x; 
const int y = blockIdx.y * blockDim.y + threadIdx.y; 

) 

中 一 回 的 线程 索引 都 是 使 用 一 个 threadID 变量 来 得 到 确定 的 线程 ,方式 四 是 使 用 两 个 
变量 来 确定 线程 的 位 置 。 

举例 如 下 : 

在 GPU 中 共 开启 了 4X4 个 线程 块 , 每 个 线程 块 中 开启 了 3X3 个 线程 ,现在 需要 找到 
坐标 为 (7,7) 的 线程 ,如 图 4-61 所 示 。 其 中 blockIdx. x * blockDim. x 为 线程 块 中 的 索引 ， 
其 取 值 为 2X3。 之 后 再 加 上 每 一 个 线程 的 索引 threadIdx. x, 本 次 的 取 值 为 1。 所 以 ,x 的 
取 值 为 7; 同 理 ,y 的 取 值 也 为 7, 这 样 就 可 以 实现 二 维 线程 格 和 二 维 线程 块 的 索引 。 

threadldx.x 
blockldx.x*blockDim.x 


blockIdx.y*blockDim.y 


threadIdx.y © 


图 4-61 线程 索引 


4.7.2 矢量 求 和 
在 4.7.1 节 中 ,在 主 函 数 调用 的 过 程 中 使 用 了 : 
add<<<1,1>>>( 1, 2, ptr ); 


第 一 个 参数 表示 的 是 在 本 次 运行 的 过 程 中 启动 的 线程 块 数量 ,没有 使 用 dim3 型 变量 ,而 是 
使 用 了 int 型 变量 ,表示 启动 一 个 线程 块 ,第 二 个 参数 表示 在 每 一 个 线程 块 中 启动 了 一 个 
线程 。 

如 果 需 要 计算 10 个 数据 , 则 需要 启动 10 个 线程 ,可 以 采用 如 下 两 种 方式 来 启动 这 些 
AE. 


Kernel <<< 10,1 >>>(); 


第 一 种 表示 启动 了 10 个 线程 格 ,每 个 线程 格 启动 1 个 线程 ,需要 使 用 blockldx. x 来 进行 
索引 。 


Kernel <<<1,10>>>(); 


第 二 种 表示 启动 了 1 个 线程 格 , 在 这 个 线程 格 中 启动 了 10 个 线程 ,整体 也 是 启动 10 个 线 
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程 ,这 种 启动 方式 需要 用 threadIdx. x 来 进行 索引 。 

如 果 需 要 编写 较 大 的 程序 ,就 必须 启用 较 多 的 线程 , 仅 需 把 近 二 二 ,> 之 > 中 的 值 适当 
地 调 大 就 可 以 ; 但 需要 注意 的 是 ,在 启动 线程 块 组 时 ,数组 的 每 一 个 维度 的 最 大 数量 都 不 能 
超过 65 535, 这 是 硬件 的 限制 ,超过 了 这 个 限制 ,程序 就 将 运行 失败 。 下 面 用 10 个 数字 相 加 
的 程序 作为 例子 来 进行 讲解 。 该 程序 将 数组 a[10] 和 b[10] 中 对 应 脚 标 位 置 的 数据 相 加 并 
将 结果 保存 在 cL10] 中 。 

例 程 如 下 : 


# include < cuda_runtime.h> 
* include < iostream > 
* include < device_launch_parameters. h> 


_ global void add( int *a, int *b, int *c)( 
int tid = threadIdx.x; 
if (tid < 10) 
c[tid] = a[tid] + b[tid]; 
) 


int main( void ) ( 
int a[10], b[10], c[10]; 
int *dev a, *dev b, *dev c; 


cudaMalloc( (void * * )&dev a, 10 * sizeof(int) ); 
cudaMalloc( (void * * )&dev b, 10 * sizeof(int) ); 
cudaMalloc( (void * * )&dev c, 10 * sizeof(int) ); 


for (int i=0; i«10; i++) { 
a[i] = i; 

bli] = i*2; 

) 


cudaMemcpy( dev_a, a, 10 * sizeof(int),cudaMemcpyHostToDevice ); 
cudaMemcpy( dev b, b, 10 * sizeof(int),cudaMemcpyHostToDevice ); 


add <<< 1,10 >>>( dev a, dev b, dev c ); 
cudaMemcpy( c, dev c, 10 * sizeof(int),cudaMemcpyDeviceToHost ); 


for (int i=0; i«10; i++) 
{ 

printf( "%d + %d = *dW", a[i], b[i], c[i] ); 
) 


cudaFree( dev a ); 
cudaFree( dev b ); 
cudaFree( dev c ); 


getchar(); 
return 0; 
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运行 结果 如 图 4-62 所 示 。 


图 4-62 运算 结果 


给 int 型 的 变量 赋予 索引 值 , 这 个 变量 也 就 是 前 面 说 到 的 线程 索引 threadID, 通 过 它 就 
可 以 对 应 找到 设备 端 与 之 相 匹配 的 线程 ,给 每 个 线程 赋值 。 设 备 端 在 得 到 这 个 指令 时 ,每 个 
线程 相当 于 得 到 了 如 下 的 指令 ， 


. global void add( int *a, int *b, int x*c)1{ 
int tid - 0; 
if (tid « 10) 
c[tid] = a[tid] + b[tid];  // 把 数组 的 第 一 位 对 应 相 加 
} 


第 二 个 线程 ， 


_ global  voidadd( int *a, int *b, int *c ) { 
int tid = 1; 
if (tid « 10) 
c[tid] = a[tid] + b[tid];  // 把 数组 的 第 二 位 对 应 相 加 
) 


第 三 个 线程 ， 


. global void add( int *a, int *b, int xc){ 
int tid - 2; 
if (tid « 10) 
c[tid] = a[tid] + b[tid];  // 把 数组 的 第 三 位 对 应 相 加 


第 十 个 线程 : 


. global void add( int *a, int *b, int *c) ( 
int tid - 9; 
if (tid < 10) 
c[tid] = a[tid] + b[tid];  // 把 数组 的 第 十 位 对 应 相 加 
) 


每 一 个 线程 得 到 的 数据 是 不 同 的 ,因此 可 以 使 10 个 线程 同时 计算 10 组 不 同 的 数据 ,最 
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后 一 同 从 设备 端 返回 给 主机 端 。 
当然 ,也 可 以 采取 使 用 线程 块 的 方式 来 分 配 线程 ,将 上 述 程序 中 的 add() 函数 修改 为 : 
add« — 10,17 77 ( dev a, dev b, dev c ); 
将 设备 端的 程序 修改 为 : 
. global void add( int *a, int *b, int *c)( 
int tid = blockIdx.x; 
if (tid « 10) 
c[tid] = a[tid] + b[tid]; 
) 
这 样 可 以 调用 10 个 线程 块 ,每 个 线程 块 中 启动 一 个 线程 进行 计算 。 这 种 方式 和 使 用 一 
个 线程 块 中 10 个 线程 的 方式 有 一 定 的 区 别 。 调 用 线程 块 的 方式 叫做 粗 粒 度 并 行 ,而 调用 一 
个 线程 块 内 的 10 个 线程 就 叫做 细 粒 度 并 行 。 通 常情 况 下 , 细 粒 度 并 行 的 效率 更 高 ,运行 的 
时 间 更 短 一 些 。 


4.7.3 数据 较 多 的 矢量 求 和 


在 前 面 的 例子 中 ,使 用 的 是 长 度 为 10 的 数据 ,但 在 实际 应 用 中 ,很 容易 出 现 数据 量 较 
大 ,在 硬件 限制 下 无 法 保证 一 个 线程 对 应 一 个 数据 处 理 操 作 。 因 此 ,需要 适当 修改 核 函数 的 
索引 方式 和 核 函 数 的 调用 方式 以 避免 这 个 情况 。 

如 果 需 要 计算 两 个 长 度 为 1024 的 数组 对 应 的 和 ,可 以 采用 启动 15 个 线程 块 , 并 且 每 一 
个 线程 块 仅 启动 一 个 线程 的 方式 ,对 应 的 程序 如 下 : 


# include < cuda_runtime. h> 
# include < iostream> 
# include < device launch parameters. h> 


define N 1024 
. global void add( int *a, int *b, int *c)( 
int tid = blockIdx.x; 
while (tid <N) ( 
c[tid] = a[tid] + b[tid]; 
tid += gridDim.x; 


} 


int main( void ) { 
int *a, *b, *c; 
int *dev a, *dev b, *dev c; 
a = (int* )malloc( N * sizeof(int) ); 
b = (int* )malloc( N * sizeof(int) ); 
c = (int* )malloc( N * sizeof(int) ); 


cudaMalloc( (void* * )&dev a, N * sizeof(int) ); 
cudaMalloc( (void * * )&dev b, N * sizeof(int) ); 
cudaMalloc( (void * * )&dev c, N * sizeof(int) ); 
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for (inti-0; i<N; i++) { 
ali] = i; 
b[i] = 2 * i; 

) 


cudaMemcpy( dev a, a, N * sizeof(int),cudaMemcpyHostToDevice ); 
cudaMemcpy( dev b, b, N * sizeof(int),cudaMemcpyHostToDevice ); 


add <<< 15,1 >>>( dev a, dev b, dev c ); 
cudaMemcpy( c, dev c, N * sizeof(int),cudaMemcpyDeviceToHost ); 


for (int i=0; i<N; i++) { 
if ((a[i] + b[i]) == c[i]) { 
printf( "%d + %d = %d\n", a[i], bli], cli] ); 
) 
) 


cudaFree( dev a ); 
cudaFree( dev b ); 
cudaFree( dev c ); 
free( a ); 
free( b ); 
free( c ); 


getchar(); 
return 0; 


) 


程序 运行 的 结果 如 图 4-63 所 示 


3: DAVisual Studio 2010 codes\test_cuds\64\Debug.. zs] 5i ER 


图 4-63 1024 个 数据 求 和 结果 


这 套 程 序 跟 上 一 套 程序 相 比 改动 很 小 ,只 是 增 大 了 起 始 的 数据 量 , 并 且 限 定 了 线程 数 
量 。 这 套 程序 在 主机 端的 运行 部 分 仍然 是 给 两 个 数组 赋值 并 将 数据 传送 到 设备 端 。 而 设备 
端的 程序 使 用 了 循环 语句 来 让 所 有 的 线程 一 次 一 次 计算 ,最 终 得 出 结果 。 

O 在 第 一 次 运行 设备 端 while() 循 环 时 ,tid 的 值 是 0 一 14, 也 就 是 说 ,使 用 了 15 个 线 
程 , 分 别 计算 了 数组 中 的 前 15 个 数据 。 之 后 运行 


tid + = gridDim.x; 
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gridDim. x 是 本 次 调用 的 线程 块 数量 ,也 就 是 让 tid 的 值 增 加 了 15. 

© 第 二 次 运行 while() 循 环 时 ,仍然 是 原本 的 15 个 线程 ,但 是 在 计算 时 tid 的 值 发 生 了 
改变 ,这 些 线程 在 第 二 次 循环 时 ,计算 的 是 数组 中 第 15—29 的 数据 。 就 这 样 依次 循环 下 去 。 

© 在 最 后 一 次 循环 时 , while 已 经 循环 了 67 次 ,在 进行 第 68 次 计算 时 ,tid 十 一 
gridDim. x 的 取 值 为 1020 一 1034。 因 为 有 tid< N 的 限制 ,所 以 很 明显 ,不 是 所 有 的 tid 都 可 
以 进入 到 下 一 次 循环 中 , 仅 有 tid < N 的 部 分 是 可 以 进入 下 一 次 循环 。 也 就 是 说 ,在 最 后 一 
次 计算 时 剩 下 的 a[1020]、a[1021]、a[1022]、a[1023]、a[1024] 和 b[1020]、b[1021]、 
b[1022],b[1023 ],b[ 1024 ]. ¥ m tid 取 值 小 于 N 的 5 个 线程 来 进行 相 加 计算 。 这 也 是 
CUDA 自身 的 一 个 保护 功能 .可 以 在 保证 计算 资源 足够 的 情况 下 , 尽 可 能 地 减少 不 必要 的 
开销 。 


4.7.4 不 同 维度 线程 索引 


在 前 面 的 索引 中 ,使 用 的 线程 块 和 线程 都 是 低 维度 的 ,本 节 将 给 出 启动 高 维 线程 块 和 线 
程 的 程序 以 及 解析 。 

1. 一 维 线程 块 和 一 维 线程 

本 节 的 例子 是 在 之 前 程序 的 基础 上 .分别 启动 了 64 个 一 维 线程 块 和 64 个 一 维 线程 ,用 
来 计算 两 个 长 度 为 32 768 的 数组 相 加 并 将 结果 存在 第 三 个 数组 中 。 

程序 如 下 : 


* include < cuda_runtime. h> 

# include < iostream > 

* include < device launch parameters. h> 
f define N (32 * 1024) 


. global void add( int *a, int * b, int *c) 
{ 
int threadID = blockIdx.x * blockDim.x + threadīdx. x; 
while (threadID < N) ( 
c[threadID] = a[threadID] + b[threadID]; 
threadID *- blockDim.x * gridDim.x; 


) 


int main( void ) { 
int *a, *b, *c; 


int *dev a, *dev b, *dev c; 


4411111111% CPU 上 开辟 内 存 
a = (int* )malloc( N * sizeof(int) ); 
b = (int* malloc( N * sizeof(int) ); 
c = (int* )malloc( N * sizeof(int) ); 


4411111111% GPU 上 开辟 内 存 
cudaMalloc( (void* * )&dev a, N * sizeof(int) ); 
cudaMalloc( (void * * )&dev b, N * sizeof(int) ); 
cudaMalloc( (void* * )&dev c, N * sizeof(int) ); 


is 
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for(inti-0; i«N; i++) ( 
a[i] = i; 
b[i] = 2 * i; 


//////////CPU 向 GPU 传递 数据 
cudaMemcpy( dev a, a, N * sizeof(int),cudaMemcpyHostToDevice ); 
cudaMemcpy( dev b, b, N * sizeof(int),cudaMemcpyHostToDevice ); 


add <<< 64,64 >>>( dev a, dev b, dev c ); 


/111/11111/ 数 据 传送 回 CPU 


cudaMemcpy( c, dev c, N * sizeof(int),cudaMemcpyDeviceToHost ); 


for (int i=0; i«N; i++) ( 
if ((a[i] + b[i]) == c[i]) f 
printf( " %d + %d = %d\n", a[i], b[i], cli] ); 


) 

Hé lO GPU 指针 
cudaFree( dev a ); 
cudaFree( dev b); 
cudaFree( dev c ); 


1/11/1111/ 释放 CPU 指针 


free( a ); 
free( b); 
free( c ); 
getchar(); 
return 0; 
) 
程序 运行 的 结果 如 图 4-64 所 示 
owe Studio 2010 code Ne aCA ec 


32751 + 65502 
32752 + 65584 
32753 + 65506 
32754 + 65508 
32755 + 65510 
32756 + 65512 
32757 + 65514 
32758 + 65516 
32759 + 65518 
32760 + 65520 
32761 + 65522 


32762 + 65524 
32763 + 65526 
32764 + 65528 
|| 32765 + 65530 
65532 
65534 


| 32266 
32767 


图 4-64 一 维 计算 结果 
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相信 有 了 前 面 的 基础 ,看 懂 这 段 程序 不 是 难事 ,需要 注意 的 是 ,每 次 threadID 增加 的 数 
量 就 是 每 次 启动 线程 数量 的 总 数 。 因 为 本 次 是 一 维 的 ,所 以 blockDim. x * gridDim. x 的 
总 体 数 量 就 是 64X64 启动 的 总 体 , 即 4096 个 线程 。 

2. 二 维 线程 块 和 二 维 线程 

在 上 面 程序 的 基础 上 ,将 每 次 启动 的 线程 块 和 线程 都 修改 成 为 二 维 的 ,对 应 的 程序 
如 下 : 


* include < cuda_runtime. h> 
* include < iostream > 
£ include «device launch parameters.h» 


f define N (32 * 1024) 
. global void add( int *a, int *b, int *c) ( 


int blockID = blockIdx.y * gridDim.x + blockIdx.x; 
int threadID - blockID * blockDim.x * blockDim.y 
+ threadIdx.y * blockDim.x 
+ threadIdx.x; 


while (threadID « N) ( 
c[threadID] - a[threadID] * b[threadID]; 


threadID += gridDim.x * gridDim.y * blockDim.x * blockDim.y; 
} 


int main( void ) { 
int *a, *b, *c; 
int *dev a, *dev b, *dev c; 


//////////fE CPU 上 开辟 内 存 
a = (int* )malloc( N * sizeof(int) ); 
b = (int* )malloc( N * sizeof(int) ); 
e (int* )malloc( N * sizeof(int) ); 


44141111111% GPU 上 开辟 内 存 
cudaMalloc( (voidx * )&dev a, N * sizeof(int) ); 
cudaMalloc( (void* * )&dev b, N * sizeof(int) ); 
cudaMalloc( (void* * )&dev c, N * sizeof(int) ); 


for (int i=0; i«N; i++) ( 


ali] = i; 
bi-2*i; 
) 
//////////E) GPU 传递 数据 


cudaMemcpy( dev a, a, N * sizeof(int),cudaMemcpyHostToDevice ); 
cudaMemcpy( dev b, b, N * sizeof(int),cudaMemcpyHostToDevice ); 
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dim3 grids(8,8); 
dim3 threads(8,8); 
add <<< grids, threads >>>( dev a, dev b, dev c ); 


1111/1111// 数 据 传送 回 主 机 端 
cudaMemcpy( c, dev c, N * sizeof(int),cudaMemcpyDeviceToHost ); 


for (int i=0; i«N; i++) ( 
if ((a[i] + b[i]) == c[i]) { 
printf(" &d + %d = %d\n", a[i], b[i], c[i] ); 


) 

41 L LL 69k GPU 指针 
cudaFree( dev a ); 
cudaFree( dev b ); 
cudaFree( dev c ); 

/////////#)k CPU 指针 
free( a ); 
free( b ); 
free( c ); 


getchar(); 


return 0; 


RU 了 的 结果 如 图 4-65 所 示 


32758 + 65516 
32759 + 65518 
32760 + 65520 
32761 + 65522 
32762 + 65524 
32763 + 65526 
32764 + 65528 
32765 + 65530 = 
32766 + 65532 
32767 + 65534 


图 4-65 二 维 计算 结果 


程序 简 析 如 下 : 
(D 使 用 了 dim3 类 型 的 变量 


调用 内 核 函 数 。 其 中 : 


dim3 grids(8,8); 
dim3 threads(8,8); 
add <<< grids, threads »»»( dev a, dev b, dev c ); 
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grids 启动 了 8X8 的 二 维 线程 块 ,threads 表示 在 每 一 个 线程 块 中 启动 了 8X8 的 线程 。 
add 函数 将 两 个 dim3 类 型 的 变量 传递 给 了 核 函数 。 
© 核 函 数 中 的 线程 索引 部 分 : 
int blockID = blockIdx.y * gridDim.x + blockIdx.x; 
int threadID - blockID * blockDim.x * blockDim.y 
* threadIdx.y * blockDim.x 
* threadldx.x; 
设 定 了 两 个 inc 类 型 的 值 ,第 一 个 blockID 是 将 所 有 的 线程 格 索 引 列 出 来 ,而 threadID. 
则 是 在 blockID 的 基础 上 ,将 所 有 的 线程 都 做 好 对 应 的 索引 。 
© AR: 


threadID + = gridDim.x * gridDim.y * blockDim.x * blockDim. y; 


在 每 一 个 线程 都 得 到 一 对 数据 并 进行 相 加 之 后 ,还 需要 继续 进行 迭代 来 确保 所 有 的 数 
据 都 进行 过 计算 , 即 每 次 在 threadID 中 递增 所 有 线程 的 数量 。 

gridDim. x * gridDim. y 表示 启动 的 所 有 的 线程 块 数量 , 即 8X8 的 线程 块 ; 而 
blockDim. x * blockDim. y 则 表示 每 个 线程 块 中 启动 线程 的 数量 , 即 8X8 的 线程 ,所 以 每 
次 递增 的 数量 即 为 4096 个 。 

3. 三 维 线程 块 和 三 维 线程 

虽然 在 实际 应 用 中 很 少 会 使 用 这 么 高 维 的 线程 索引 ,但 是 为 了 方便 讲解 ,还 是 启用 三 维 
的 线程 块 和 三 维 的 线程 来 实现 这 个 算法 ,对 应 的 程序 如 下 所 示 : 


* include < cuda_runtime.h> 
# include < iostream > 
# include < device_launch_parameters. h> 


# define N (32 * 1024) 
__global__ void add( int *a, int *b, int *c)( 


int blockID = blockIdx.z * gridDim.x * gridDim.y 
* blockIdx.y * gridDim.x 
+ blockIdx.x; 
int threadID - blockID * blockDim.x * blockDim.y * blockDim.z 
+ threadIdx.z * blockDim.x * blockDim.y 
+ threadIdx.y * blockDim.x 
+ threadIdx.x; 


while (threadID < N) ( 
c[threadID] = a[threadID] + b[threadID]; 
threadID += gridDim.x * gridDim.y * gridDim.z * blockDim.x * blockDim.y * blockDim.z; 
H 
1 


int main( void ) ( 
int *a, *b, *c; 
int *dev a, *dev b, *dev c; 


/1111111// 在 CPU 上 开辟 内 存 
a 7 (int* )malloc( N * sizeof(int) ); 
b = (int* )malloc( N * sizeof(int) ); 
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c = (int* )malloc( N * sizeof(int) ); 


/////////fE GPU 上 开辟 内 存 
cudaMalloc( (void* * )&dev a, N * sizeof(int) ); 
cudaMalloc( (void* * )&dev b, N * sizeof(int) ); 
cudaMalloc( (void* * )&dev c, N * sizeof(int) ); 


for (int i=0; i<N; i++) ( 
ali] = i; 
bi] = 2 * i; 

) 


Hill GPU 传递 数据 
cudaMemcpy( dev a, a, N * sizeof(int),cudaMemcpyHostToDevice ); 
cudaMemcpy( dev b, b, N * sizeof(int),cudaMemcpyHostToDevice ); 


dim3 grids(4,4,4); 
dim3 threads(4,4,4); 
add <<< grids, threads >>>( dev a, dev b, dev c ); 


/1/11/111/ 数 据 传送 回 主机 端 


cudaMemcpy( c, dev c, N * sizeof(int),cudaMemcpyDeviceToHost ); 


for (int i=0; i«N; i++) ( 
if ((a[i] + b[i]) == c[i]) f 
printf(" &d + %d = %d\n", ali], bli], cli] ); 
} 


} 

Tli Sek GPU 指针 
cudaFree( dev a ); 
cudaFree( dev b ); 
cudaFree( dev c ); 

Hl ll l8 CPU 指针 


free( a ); 
free( b ); 
free( c ); 


getchar(); 
return 0; 


} 
程序 运行 的 结果 如 图 4-66 所 示 


3 DAVisual Studio 2010 codesitest.cudaWGA|DebugWest.cudaexe ovr 
65502 
65504 
65506 
65588 
65518 
65512 
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图 4-66 ”三维 计 算 结 果 


4 199 


CUDA 与 OpenCV 并 行 图 像 处 理 实战 


00 I --------------7---7-7---- -a 


程序 简 析 如 下 : 
O 这 套 程序 使 用 了 dim3 类 型 的 变量 来 调用 内 核 函数 。 其 中 : 
dim3 grids(4,4,4); 
dim3 threads(4,4,4); 
add <<< grids, threads »»»( dev a, dev b, dev c ); 
grids 启动 了 4X4X4 的 三 维 线程 块 ,threads 表示 在 每 一 个 线程 块 中 启动 了 4X4X4 
的 线程 。add 函数 将 两 个 dim3 类 型 的 变量 传递 给 了 核 函数 。 
© 核 函 数 中 的 线程 索引 部 分 : 
int blockID = blockIdx.z * gridDim.x * gridDim.y 
* blockIdx.y * gridDim.x 
+ blockIdx. x; 
int threadID = blockID * blockDim.x * blockDim.y * blockDim.z 
* threadIdx.z * blockDim.x * blockDim.y 
+ threadIdx. y * blockDim.x 
* threadIdx.x; 
设 定 了 两 个 int 类 型 的 值 ,blockID 将 所 有 线程 格 索引 列 出 来 ,而 threadID 则 在 blockID 
的 基础 上 ,将 所 有 的 线程 都 对 应 好 相应 的 索引 。 
© kf. 
threadID + = gridDim.x * gridDim. y * gridDim.z * blockDim. x * blockDim. y * blockDim.z; 


迭代 是 指 每 次 循环 登 加 上 启动 的 所 有 线程 数量 ,启动 的 总 线程 块 数量 为 gridDim. x * 
gridDim. yx gridDim. z, B| 4X4X4, 一 共 64 个 线程 块 。 每 个 线程 块 启动 线程 数量 为 
blockDim. x * blockDim. y * blockDim. z, Bl 4X4X4, 一 共 64 个 线程 ,所 以 总 体 来 看 也 是 启 
动 了 共计 4096 个 线程 。 

可 以 看 出 ,上 面 使 用 三 种 不 同 维度 的 线程 块 和 线程 来 解决 同一 问题 ,得 到 的 结果 是 相 
同 的 。 


4.8 GPU 的 存储 器 


计算 机 主机 在 执行 任务 时 ,数据 需要 在 内 存 中 进行 计算 。CUDA 程序 在 运行 之 前 , 需 
要 将 数据 从 主机 端的 内 存 传送 到 GPU 的 显存 (也 就 是 GPU 的 内 存 ) 中 ,在 内 存 中 完成 计算 
之 后 ,再 将 计算 后 的 结果 传送 回 主机 端的 内 存 中 。 同 样 ,CUDA 的 学 习 重 点 之 一 也 是 了 解 
并 学 会 如 何 合理 地 使 用 GPU 中 的 存储 器 和 内 存 。 图 4-67 所 示 为 CUDA 的 寄存 器 模型 。 

在 使 用 CUDA 进行 并 行 计算 时 ,通常 涉及 的 寄存 器 模型 有 如 下 八 种 : 

(D Register( 寄 存 器 ) 

© Local Memory( 局 部 寄存 器 ) 

(3 Shared Memory( 共 享 存储 器 ) 

(D Constant Memory( 常 数 存 储 器 ) 

© Texture Memory( 纹 理 存储 器 ) 

(& Global Memory( 全 局 存储 器 ) 
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@ Pinned Memory( 页 锁定 存储 器 ) 

Pageable Memory( 可 分 页 存储 器 ) 

本 节 将 对 这 八 种 存储 器 进行 简单 的 介绍 。 

首先 是 最 底层 的 寄存 器 (Register)。 对 每 个 
线程 来 说 ,寄存 器 部 是 私有 的 ,这 与 CPU 中 一 样 。 
如 果 寄 存 器 被 消耗 完 ,数据 将 被 存储 在 本 地 存储 
器 (Local Memory) 中 。 本 地 存储 器 对 每 个 线程 来 
说 也 是 和 有 的 ,但 是 此 时 数据 将 会 被 保存 在 帧 组 
冲 区 DRAM 中 ,而 不 是 片 内 的 寄存 器 或 者 缓存 
中 。 线 程 的 输入 和 中 间 输 出 的 变量 将 被 保存 在 寄 
存 器 或 者 本 地 存储 器 中 。 

之 后 是 用 于 线程 间 通 信 的 共享 存储 器 
(Shared Memory)。 共 享 存储 器 是 一 块 可 以 被 同 
一 块 中 的 所 有 线程 访问 的 可 读 写 存储 器 。 访 问 共 
享 存储 器 几乎 和 访问 寄存 器 一 样 快 ,可 最 小 化 线 
程 间 的 通信 和 延迟。 共享 存储 器 可 以 实现 许多 不 同 
的 功能 ,例如 用 于 保存 公用 计数 器 和 计算 块 的 公 
用 结果 等 。 

除 此 以 外 ,还 有 两 种 只 读 的 地 址 空间 一 一 常数 存储 器 (Constant Memory) 和 纹理 存储 
fi Texture Memory) ,它们 是 由 GPU 中 用 于 图 形 计算 的 专用 单元 发 展 而 来 的 。 常 数 存储 
器 空间 较 小 (通常 只 有 64KB) ,支持 随机 访问 。 纹 理 存储 器 容量 则 大 得 多 ,并 且 支 持 二 维 寻 
址 。 这 两 种 存储 器 实际 存在 于 帧 缓冲 区 DRAM 中 ,但 由 于 它们 的 “只 读 ” 性 质 ,在 GPU 片 
内 可 以 进行 缓存 ,这 样 可 以 加 快 访问 速度 。 这 两 种 存储 器 并 不 要 求 缓存 一 致 性 ,但 这 也 意味 
着 如 果 CPU 或 者 GPU 要 更 改 常数 存储 器 或 者 纹理 存储 器 的 值 ,缓存 中 的 值 在 更 新 完成 之 
前 将 无 法 使 用 。 

再 之 后 是 全 局 存储 器 (Global Memory) ,使 用 的 是 普通 显存 。 整 个 线程 网 格 中 的 任意 
线程 都 能 读 写 全 局 存储 器 的 任意 位 置 , 既 可 以 从 主机 端 进行 访问 ,也 可 以 从 设备 端 进行 访 
问 。 由 于 全 局 存储 器 是 可 写 的 ,GPU 片 内 没有 对 其 进行 缓存 。 

最 后 是 主机 端的 两 个 寄存 器 : 页 锁定 存储 器 (Pinned Memory) 和 可 分 页 存储 器 
(Pageable Memory) 。 这 两 个 存储 器 的 调用 方式 与 平时 在 C 语言 和 C++ 语言 中 是 一 样 的 ， 
此 处 不 再 著述 。 


4.8.1 寄存 器 


寄存 器 (Register) 

位 置 : GPU 片 内 

是 否 拥有 缓存 : N/A 

访问 权限 : 设备 可 进行 读 / 写 操作 

变量 生存 周期 : 与 线程 相同 

寄存 器 是 一 种 高 速 缓存 器 ,有 着 极 低 的 访问 延迟 和 最 高 的 效率 , 主要 用 于 存储 程序 中 的 


图 4-67 CUDA 的 存储 器 模型 
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局 部 变量 。 每 个 寄存 器 文件 的 大 小 为 32bit。 不 同 计算 能 力 的 GPU ,每 个 SM 上 寄存 器 的 
个 数 都 不 一 样 ,在 计算 能 力 1.0 和 1. 1 的 版 本 中 ,每 个 SM 中 寄存 器 文件 数量 为 8192; 而 在 
1.2/1.3 的 版 本 中 ,每 个 SM 中 寄存 器 文件 数量 为 16 384。 也 就 是 说 ,如 果 一 个 SM 被 划分 
成 八 个 块 ,那么 平均 每 个 块 可 以 使 用 81922-8— 1024 个 寄存 器 文件 。 寄 存 器 动态 分 配 ,一 旦 
分 配 到 某 一 个 块 ,不 能 被 其 他 块 访问 。 如 果 每 个 块 包含 16X16 一 256 个 线程 ,那么 每 个 线程 
只 能 使 用 四 个 寄存 器 文件 。 

程序 编译 时 ,就 已 确定 每 个 线程 可 以 使 用 多 少 寄存 器 ,所 有 块 的 寄存 器 个 数 相同 。 需 要 
注意 的 是 ,如 果 每 个 线程 都 使 用 了 过 多 的 寄存 器 ,那么 将 导致 每 个 SM 上 同时 执行 块 的 个 数 
减 小 。 例 如 ,如 果 每 个 线程 使 用 八 个 寄存 器 文件 ,那么 该 SM 上 最 多 同时 执行 四 个 块 (每 个 
HA 256 个 线程 )。 因 此 ,可 以 总 结 为 以 下 两 点 : 

。 少量 线程 ,每 个 线程 使 用 大 量 寄存 器 。 

。 大 量 线程 ,每 个 线程 使 用 少量 寄存 器 。 


4.8.2 局 部 存储 器 


局 部 寄存 器 (Local Memory) 

位 置 : 板 载 显存 

是 否 拥有 缓存 : 无 

访问 权限 : 设备 可 进行 读 / 写 操作 

变量 生存 周期 : 与 线程 相同 

局 部 寄存 器 是 每 个 CUDA 线程 私有 的 ,通常 情况 下 ,在 声明 数组 或 者 寄存 器 被 使 用 完 
毕 、 大 型 结构 体 或 数组 .无 法 确定 大 小 的 数组 .线程 的 输入 和 中 间 变 量 或 者 是 定义 线程 私有 
数组 的 同时 进行 初始 化 的 数组 ,这 些 都 将 被 分 配 到 局 部 寄存 器 中 。 

局 部 寄存 器 在 板 载 显存 中 ,因此 进行 访问 时 会 变 得 很 慢 。 


4.8.3 共享 存储 器 


共享 存储 器 (Shared Memory) 

fu. GPU 片 内 

是 否 拥 有 缓存 : N/A 

访问 权限 : 设备 可 进行 读 / 写 操作 

变量 生存 周期 : 与 块 相 同 

在 CUDA 中 ,共享 存储 器 是 GPU 片 内 除 寄存 器 外 的 另 一 种 高 速 可 读 可 写 的 存储 器 , 同 
一 个 线程 块 内 的 线程 均 可 以 访问 它 ,一 般 用 于 存储 块 中 线程 公用 的 数据 。 它 提供 了 线程 间 
通信 的 机 制 ,并 且 访 问 速度 十 分 接近 寄存 器 的 速度 。 但 共享 存储 器 在 被 访问 时 可 能 会 产生 
存储 体 冲突 (bank conflict) ,导致 访问 效率 低下 ,因此 ,需要 对 CUDA 程序 进行 优化 ,以 减少 
冲突 的 次 数 。 

前 面 已 经 介绍 了 如 何 将 两 个 向 量 数组 对 应 位 置 的 数据 进行 加 和 , 现 通 过 点 积 运算 的 方 
式 来 介绍 如 何 使 用 共享 内 存 。 

数量 积 (dot product, scalar product, 也 称 为 点 积 ) 是 接受 在 实数 域 R 上 的 两 个 向 量 并 
返回 一 个 实数 值 标量 的 二 元 运算 。 它 是 欧 几 里 得 空间 的 标准 内 积 , 公 式 表示 如 下 
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a 一 (alyazyas); 
b = (yb: 
a +b = aib + asb; + asb; 
那么 用 一 维 数组 的 形式 来 表示 点 积 ,就 是 
& 一 [aiyazyas]; 
b = [b 5.5]; 


c—a«*b-—[ai*bi. az *b;,as * bs ]; 


和 应 
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现在 如 果 使 用 GPU 将 两 个 长 度 为 10 000 的 数组 进行 内 积 , 就 需要 使 用 共享 内 存 。 需 


要 注意 一 点 ,在 使 用 共享 存储 器 


所 示 的 方式 进行 的 ,这 样 可 以 保证 速度 的 最 大 化 。 
EE EEREIEIEIETETEIETETESERETETERE 
I HL WD = 2 sdi 


Step 1 
Distance 8 — threads 


values 


Step 2 
Distance 4 


Step 3 
Distance 2 


Step 4 
Distance 1 
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使 用 的 程序 和 程序 运行 后 的 结果 如 下 : 


# include < iostream> 

# include < cuda runtime.h» 

# include < device functions.h» 

* include «device launch parameters.h> 


const int N - 10000; 
const int thread - 128; 
const int block - 64; 


. global void scalar( float *a, float *b, float *c ) { 
Shared — float share[ thread]; 
int threadID = blockIdx.x * blockDim.x + threadldx.x; 
int shareIndex = threadIdx.x; 


float temp - 0; 
while (threadID < N) ( 
temp *- a[threadID] * b[threadID]; 
threadID += blockDim.x * gridDim. x; 


行 倒 加 时 ,GPU pg ÈB 605 Sc b; 3 JII Mu e Hc 3: de d n 8] 4-68 
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Share[ shareIndex] = temp; 


// 让 线程 块 内 的 所 有 线程 运行 完毕 
. .syncthreads() ; 


// 规 约 运算 
inti = blockDim.x/2; 
while (i != 0) ( 
if (shareIndex < i) 
share[shareIndex] += share[shareIndex + i]; 
... Syncthreads() ; 
i/= 2; 
) 
if (shareIndex == 0) 
c[blockIdx.x] = share[0]; 


int main( void ) ( 
float *a, *b, c, * partial c; 
float * dev a, *dev b, *dev partial c; 


//CPU 分 配 内 存 

a = (float * )malloc( N* sizeof(float) ); 

b = (float * )malloc( N* sizeof(float) ); 

partial c = (float * )malloc( block * sizeof(float) ); 


//GPU 分 配 内 存 

cudaMalloc( (void* * )&dev a,N * sizeof(float) ) 

cudaMalloc( (void* * )&dev b,N * sizeof(float) ); 

cudaMalloc( (void* * )&dev partial c,block * sizeof(float) ); 


for (int i=0; i«N; i+) { 
ali] = i; 
b[i] = i*2; 


" 


cudaMemcpy( dev a, a, N * sizeof(float),cudaMemcpyHostToDevice ) ; 
cudaMencpy( dev b, b, N * sizeof(float),cudaMemcpyHostToDevice ); 


scalar <<< block, thread >>>( dev a, dev b,dev partial c ); 
cudaMemcpy( partial c, dev partial c, block * sizeof(float),cudaMemcpyDeviceToHost ); 
c = 0; 


for (int i=0; i<block; i++) ( 
c += partial c[i]; 


printf( "内 积 的 结果 $f\n"，c ); 
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// 释 放 GPU 指针 

cudaFree( dev a ); 
cudaFree( dev b ); 
cudaFree( dev partial c ); 


// 释 放 CPU 指针 
free( a ); 

free( b); 

free( partial c ); 


getchar(); 


) 
程序 运行 的 结果 如 图 4-69 所 示 。 


图 4-69 点 积 的 结果 


4.8.4 常数 存储 器 


常数 存储 器 (Constant Memory) 

位 置 : 板 载 显存 

是 否 拥有 缓存 : 有 

访问 权限 : 设备 可 进行 读 操作 ,主机 可 进行 读 / 写 操作 

变量 生存 周期 : 可 在 程序 中 保持 

常数 存储 器 位 于 GPU 片 外 显存 ,其 地 址 空间 是 只 读 的 , 且 使 用 了 缓存 加 快 访问 速度 。 
常数 存储 器 只 占用 了 64KB, 一 般 用 于 存储 程序 中 需要 经 常 访问 的 只 读 参数 ,并 且 整 个 网 格 
共享 一 个 常数 存储 器 。 在 访问 常数 存储 器 时 若 发 生 缓存 命中 , 则 访问 所 需 数据 只 需要 一 个 
时 钟 周期 的 时 间 。 在 一 些 情况 下 ,使 用 常数 存储 器 而 不 使 用 全 局 存储 器 ,可 以 削减 带宽 。 


4.8.5 纹理 存储 器 


纹理 存储 器 (Texture Memory) 

位 置 : 板 载 显存 

是 否 拥有 缓存 : 有 

访问 权限 : 设备 可 进行 读 操作 ,主机 可 进行 读 / 写 操作 

变量 生存 周期 : 可 在 程序 中 保持 

纹理 存储 器 是 只 读 的 。 它 的 前 身 是 演 染 纹理 的 图 形 专用 单元 , 故 具 有 一 些 特殊 功能 ,并 
且 整 个 线程 网 格 共享 一 个 纹理 存储 器 。 纹 理 存 储 器 支持 一 维 \ 二 维和 三 维 数组 的 存储 形式 ， 
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对 它 的 加 速 访问 通过 纹理 缓存 来 实现 。 纹 理 缓存 具有 滤波 功能 ,并 且 支 持 归 一 化 的 浮 点 坐 
标 纹理 拾取 ,因此 ,在 通用 计算 中 ,非常 适合 实现 查找 表 和 图 像 处 理 ,而 对 于 大 数据 量 的 非 对 
齐 访问 ,也 有 良好 的 加 速 作用 。 


4.8.6 全 局 存储 器 


全 局 存储 器 (Global Memory) 

位 置 : 板 载 显存 

是 否 拥有 缓存 : 无 

访问 权限 : 设备 可 进行 读 / 写 操作 

变量 生存 周期 : 可 在 程序 中 保持 

全 局 存储 器 位 于 GPU 片 外 的 板 载 显存 中 ,CPU 和 GPU 都 能 对 其 进行 读 写 访问 ,并 且 
整个 线程 网 格 中 的 所 有 线程 也 都 能 随意 读 写 它 的 任意 位 置 。Fermi 架构 之 前 的 GPU 是 没 
有 全 局 存储 器 配备 缓存 的 ,所 以 访问 速度 较 慢 ,但 是 它 能 提供 很 高 的 带宽 ,一 般 用 于 存储 大 
规模 的 公用 数据 。 使 用 全 局 存储 器 时 ,应 遵守 对 齐 访问 (coalesced access) 的 要 求 , 才 能 避免 
分 区 冲突 ,有 效 利用 带宽 ,否则 会 导致 访问 效率 低下 。 


4.8.7 页 锁定 存储 器 


页 锁定 存储 器 (Pinned Memory) 

位 置 : 主机 内 存 

是 否 拥有 缓存 : 无 

访问 权限 : 主机 可 进行 读 / 写 操作 

变量 生存 周期 : 可 在 程序 中 保持 

主机 端 页 锁定 存储 器 只 分 配 在 主机 端的 物理 内 存 上 ,而 且 地 址 固定 , 它 能 通过 DMA 加 
速 与 设备 端的 通信 ,可 以 有 效 提高 主机 端 与 设备 端的 通信 效率 ,此 外 ,只 有 主机 端 页 锁定 存 
储 器 才能 使 用 CUDA API 提供 的 异步 传输 功能 ,允许 在 GPU 进行 计算 时 完成 主机 和 设备 
间 的 通信 ,实现 流 式 处 理 。 尽 管 页 锁定 存储 器 有 很 多 好 处 ,但 是 也 不 能 在 主机 端 内 存 中 过 多 
地 分 配 , 因 为 这 样 可 能 会 使 操作 系统 和 其 他 应 用 程序 没有 足够 的 物理 内 存 而 不 得 不 使 用 虚 
拟 内 存 , 进 而 导致 系统 整体 性 能 的 下 降 。 页 锁定 存储 器 通过 函数 cudaHostAlloc C) 和 
cudaFreeHost() 分 配 和 释放 。 通 常情 况 下 ,页 锁定 存储 器 只 能 由 分 配 它 的 CPU 线程 访问 ， 
但 是 在 使 用 时 加 上 cudaHostAllocPortable 的 标志 ,就 可 以 由 控制 不 同 GPU 的 多 个 CPU 
线程 共享 。 


4.8.8 可 分 页 存储 器 


可 分 页 存储 器 (Pageable Memory) 

位 置 : 主机 内 存 

是 否 拥有 缓存 : 无 

访问 权限 : 主机 可 进行 读 / 写 操 作 

变量 生存 周期 : 可 在 程序 中 保持 

可 分 页 存储 器 的 使 用 和 一 般 的 C 语言 程序 相同 ,通过 操作 系统 API 中 的 malloc()、 
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new() ,free() 分 配 和 回收 ,但 可 能 会 涉及 分 页 内 存 管理 的 页 面 置换 算法 等 ,分 配 的 存储 空间 
有 可 能 是 低速 的 虚拟 内 存 。 


4.9 ”本章 小 结 


本 章 主要 介绍 了 CUDA 的 相关 知识 。4. 1 节 主 要 介绍 了 CUDA 的 发 展 历史 和 应 用 背 
景 。4. 2 节 主 要 介绍 了 GPU 的 内 部 结构 .具体 的 架构 以 及 目前 市 面 上 常见 的 GPU 型 号 。 
4.3 节 主 要 介绍 了 并 行 处 理 的 基础 知识 ,以 及 如 何 使 用 GPU 完成 并 行 处 理 。4. 4 节 主 要 介 
绍 了 如 何 安 装 CUDA 6.5 并 给 出 一 个 用 于 环境 测试 的 小 程序 。4. 5 节 主 要 介绍 了 C 语言 
最 小 扩展 集 以 及 运行 时 库 。4. 6 节 介绍 了 几 个 简单 的 并 行 处 理 程序 ,并 介绍 了 一 些 CUDA 
常用 的 函数 。4.7 节 针 对 CUDA 最 核心 的 线程 ,通过 理论 加 示例 的 方式 进行 了 详细 讲解 。 
4.8 节 主 要 介绍 了 GPU 内 最 常用 的 八 种 存储 器 ,并 在 介绍 寄存 器 的 过 程 中 给 出 了 示例 
程序 。 
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前 面 已 经 介绍 了 OpenCV 视觉 库 的 应 用 背景 、 环 境 搭建 和 应 用 实例 等 ,但 是 OpenCV 
本 身 在 开发 的 过 程 中 是 基于 CPU 的 ,所 以 OpenCV 本 身 不 支持 并 行 处 理 。 为 了 使 OpenC V 
可 以 在 并 行 环境 下 顺利 运行 ,需要 将 OpenCV 源 程 序 嵌 和 人 支持 并 行 处 理 的 CUDA 程序 中 ， 
并 重新 编译 ,这 样 就 可 以 生成 一 个 全 新 的 支持 并 行 处 理 的 OpenCV 视觉 库 。 新 生成 的 
OpenCV J£ ,是 根据 计算 机 系统 的 型 号 (Windows 7 32 f, Windows 7 64 fii, Windows 8 64 
位 等 ) .CUDA 的 版 本 号 ,OpenCV 的 版 本 号 和 Visual Studio 的 版 本 号 来 确定 的 ,也 就 是 说 ， 
如 果 这 些 型 号 完全 一 致 , 则 生成 的 库 可 移植 ,理论 上 是 只 要 有 一 项 不 同 就 无 法 移植 。 比 如 将 
台式 机 (Windows 7 32 位 ) 上 生成 的 并 行 OpenCV 库 移植 到 笔记 本 (Windows 7 64 位 ) 上 ， 
在 运行 CUDA 的 时 候 就 会 弹出 * 无 法 找到 并 行人 口 ” 等 一 系列 问题 。 为 了 避免 这 一 系列 不 
必要 的 问题 ,需要 手动 生成 一 个 专属 于 自己 计算 机 的 并 行 OpenCV 库 。 

本 章 主要 介绍 如 何 重新 编译 支持 GPU 的 OpenCV 库 , 如 何 配置 环境 并 给 出 了 几 个 并 
行 图 像 处 理 的 例 程 。 


5.1 CMake fill TBB 的 安装 


5.1.1 安装 CMake 


CMake 是 一 个 跨 平台 的 安装 (编译 ) 工 具 , 可 以 用 简单 的 语句 来 描述 所 有 平台 的 安装 
Chk), CMake 这 个 名 字 是 cross platform make 的 缩写 。 虽 然 名 字 中 含有 make. 
但 是 CMake 和 UNIX 上 常见 的 make 功能 是 不 同 的 ,而 且 更 为 高 级 。 它 能 够 输出 各 种 各 样 
的 makefile 或 者 project 文件 ,能 测试 编译 器 所 支持 的 C++ 特性 ,类 似 于 UNIX 下 的 
automake。 只 是 CMake 的 组 态 档 取 名 为 CmakeLists. txt。CMake 并 不 直接 建构 出 最 终 的 
软件 ,而 是 产生 标准 的 建构 档 ( 如 UNIX 的 Makefile 或 Windows Visual C++ 的 projects/ 
workspaces) ,然后 再 以 一 般 的 建构 方式 使 用 。 这 使 得 熟悉 某 个 集成 开发 环境 (IDE) 的 开 
发 者 可 以 用 标准 的 方式 建构 其 软件 ,这 种 可 以 使 用 各 平台 原生 建构 系统 的 能 力 是 CMake 
与 SCons 等 其 他 类 似 系统 的 区 别 之 处 。CMake 可 以 编译 程序 、 制 作 程 序 库 、 产 生 适 配器 
(wrapper) ,还 可 以 用 任意 的 顺序 建构 执行 档 。CMake 支持 in-place 建构 (二 进 档 和 源 程 序 
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在 同一 个 目录 树 中 ) 和 out-of-place 建构 (二 进 档 在 别 的 目录 里 ), 因 此 可 以 很 容易 地 从 同 
一 个 源 代码 目录 树 中 建构 出 多 个 二 进 档 。CMake 也 支持 静态 与 动态 程序 库 的 建构 。 

本 章 使 用 了 Cmake 编译 源 代码 的 功能 ,将 OpenCV 和 CUDA 放 在 一 起 编译 生成 支持 
并 行 处 理 的 OpenCV FE ,选用 的 CmMke 型 号 是 Cmake 3. 4. 3。 

CMake 的 下 载 地 址 为 : 


https: //cmake. org/download/ 


FÆ CMake 后 就 进入 安装 阶段 ,因为 CMake 安装 较 简 单 ,不 需要 特殊 配置 ,而 且 各 个 
版 本 的 安装 步骤 几乎 一 样 ,所 以 本 书 仅 用 Cmake-3. 4. 3-win32-x86 进行 示范 ,其 他 版 本 都 可 
以 参考 。 请 注意 ,这 里 的 win32-x86 并 不 仅仅 适用 于 Windows 32 位 系统 的 计算 机 ,因为 它 
只 是 用 于 生成 库 ,与 计算 机 系统 无 关 。 

双击 安装 包 , 单 击 “ 下 一 步 ”" 和 “我 接受 ”进入 路 径 选择 界面 ,如 图 5-1 所 示 , 选 择 Add 
CMake to the system PATH for all users 单 选 按钮 ,让 CMake 自动 去 系统 路 径 添 中 加 
CMake 路 径 , 选 中 Create CMake Desktop Icon 复 选 框 ,在 桌面 创建 一 个 快捷 方式 ,之 后 选 
择 一 个 安装 地 址 就 可 以 一 步 一 步 安装 完成 。 


Install Options 
Choose options for installing Chake 3.4.3 


By default Cake does not add its directory to the system PATH 


Olana a PAIN 
() Add Chake to the system PATH for all users 


© Yent user 


Nullsoft Install System v2.46 


BAO 


图 5-1 CMake 安装 


CMake 3. 4. 3 在 安装 完成 后 会 自动 在 计算 机 的 环境 变量 中 填 上 自己 的 路 径 。 在 选用 
CMake 时 尽量 选择 版 本 比较 高 的 ,高 版 本 不 但 更 方便 ,而 且 不 会 给 硬件 造成 过 大 的 负担 ， 
CMake 安装 成 功 会 自动 运行 ,如 图 5-2 所 示 。 


5.1.2 安装 TBB 


TBB 本 身 就 是 一 个 函数 库 ,因此 不 需要 安装 .只 需要 将 下 载 好 的 文件 解压 到 一 个 文件 
夹 中 ,之 后 回 到 计算 机 的 “环境 变量 ”中 配置 环境 变量 路 径 , 但 请 注意 所 有 路 径 不 能 包含 
中 文 。 

正常 在 使 用 OpenCV 和 CUDA 的 时 候 可 以 不 添加 TBB 库 , 但 是 部 分 函数 在 加 添 TBB 
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Fle Tools Options Help 


Where is the source code: 


Where to build the binaries: | 


Search: Grouped [V] Advanced 


Name Value. 


Press Configure to update and display new values in red, then press Generate to generate 
selected build files. 


(Configure) Í Generate. | Current Generator: None Z~] 


图 5-2 CMake 安装 成 功 


库 时 才能 正常 使 用 ,所 以 建议 在 混合 编译 的 过 程 中 将 TBB 库 一 同 编译 进去 。 当 然 , 如 果 仅 
仅 是 使 用 一 些 基础 函数 还 是 可 以 不 加 入 的 。 如 下 给 出 了 TBB 库 的 安装 过 程 。 
TBB 的 下 载 地 址 为 : 


www. threadingbuildingblocks. org/download 


下 载 后 解压 即 可 ,配置 方法 如 下 : 

首先 在 用 户 变量 PATH 中 添加 一 个 TBB 路 径 , 这 个 TBB 路 径 包 含 TBB 内 的 velo X: 
件 夹 和 include 文件 夹 , 如 图 5-3 所 示 。vcl0 代表 使 用 Visual Studio 2010, 如 果 使 用 Visual 
Studio 2012, 则 选择 vcl1 文件 夹 。 具 体 的 路 径 根据 安放 文件 夹 的 位 置 来 确定 ,切记 不 能 有 
中 文 路 径 。 示 例 中 该 文件 夹 放 在 DD 盘 里 ,路 径 为 : 

D:\tbb43_201504240ss\include; 

D:\tbb43_20150424oss\bin\ intel64\vc10 

配置 完 用 户 变量 后 继续 配置 系统 变量 ,如 图 5-4 所 示 ,在 “系统 变量 "中 添加 一 项 新 的 变 
量 , 取 名 为 TBB, 在 路 径 一 栏 将 之 前 的 两 条 路 径 写 进 去 。 

至 此 , 便 完成 了 TBB 的 安装 和 配置 。 
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Zase MAPAFU 


ze 值 
MOZ PLUGIN PATH 
PATH D:\tbb43_201504240ss\bin\intel6. . . 
TEMP WUSERPROFILEX\AppData\Locsl\Tenp 
T AISERPRAFTIRNAnn Dat a Vocal VTonn 


系统 变量 6) 


su 值 
asl. log Destination-file 国 
ConSpec C:\Windows\systen32\cnd. exe 

CUDA BIN PATH — XCUDA PATHXMbin 

CMA LIR PATH  N-\CIMAR SMCIMA TanlTikVlihvgin3az 了 


(83 00... ) (iR cO...) C J 


PSModulePath — C: Windows Vsysten32 Wi ndowsPowe. . 
TBB D:\tbb43_20150424oss\bin\intel6... (T) 
TEMP C: Windows\TEMP 

mw Co Mi ndowsNTENP. às 


(Sigo...) (ii CO... | (| R J 


(we J( mà J 
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5.2 ”并行 OpenCV 库 的 生成 


在 生成 并 行 OpenCV 库 之 前 ,需要 保证 计算 机 中 已 经 成 功 安装 了 VS 2010, TBB 库 、 
CUDA, OpenCV 和 CMake, 还 要 保证 这 几 款 软件 都 配置 成 功 并 且 能 顺利 运行 。 之 后 生成 
的 过 程 中 ,需要 确保 计算 机 是 在 联网 的 状态 下 ,因为 第 一 次 使 用 CMake 时 需要 下 载 一 些 
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CMake 工作 所 需 的 必要 文件 。 
(1) 打开 CMake, 如 图 5-5 所 示 ,在 Where is the source code 中 添加 OpenCV source 的 
程序 文件 ,示例 的 路 径 是 : 


D:/OpenCV2. 4. 9/opencv/sources 


其 下 方 的 Where to build the binaries 中 添加 的 是 生成 文件 的 存放 位 置 ,建议 放 在 一 个 单独 
的 文件 夹 中 ,不 要 用 其 默认 的 路 径 ,示例 中 存放 在 了 计算 机 DD 盘 的 一 个 名 为 test 的 文件 夹 中 。 


file Tools Optons Help 


Where is the source cod D: /penCV2. 4. 9/opencv/ sources lipate Source... 


| Yhere to build the bin. Build. 


Grouped [V] Advanced [d Add Entry | | M Remove Entry 


Value. 


merate selected build files. 


图 5-5 CMake 编译 第 一 步 


(2) 单 击 Configure 按钮 进入 选择 生成 类 型 的 界面 .在 下 拉 列 表 框 中 选择 生成 的 型 号 ， 
需要 根据 计算 机 的 Visual Studio 版 本 和 Windows 版 本 进行 选择 ,示例 是 64 位 的 ,因此 选 
择 Visual Studio 10 2010 Win64; 如 果 是 32 位 的 系统 ,就 选择 后 边 没有 Win64 的 选项 。 

在 下 边 的 选项 组 中 可 以 直接 使 用 默认 的 Use default native compilers, 如 图 5-6 所 示 ， 
单 击 Finish 按钮 进入 Configure 阶段 。 

(3) Hik Configure 按钮 之 后 需要 在 列表 框 中 寻找 几 个 必要 项 ,首先 选中 WITH_TBB， 
不 要 选 BUILD_TBB, 为 了 确保 TBB 可 以 正常 使 用 ,再 次 单 击 Configure 按钮 ,如 果 顺 利通 
过 最 好 ,如 果 继 续 出 现 关于 TBB 的 错误 提示 , 则 再 次 Configure, 这 个 时 候 会 出 现 如 图 5-7 
所 示 的 几 行 红字 。 

在 这 几 行 错误 信息 中 需要 添加 几 条 TBB 的 路 径 ,示例 的 路 径 如 下 : 

TBB INCLUDE DIRS: D:/tbb43 201504240ss/include 


TBB LIB DIR: D:/tbb43 201504240ss/lib/intel64/vc10 
TBB STDDEF PATH: D:/tbb43 201504240ss/lib/intel64/vclO 
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@ Vse default native conpilers 


© Specify native conpilers 


© Specify toolchain file for cross-conpiling 


( Specify options for cross-compiling 


图 5-6 CMake 编译 第 二 步 


' À CMake 343 - D; o 
File Jools Options Help 


Where is the source code D: /OpenCV2. 4. 9/opencv/ sources 


Where to build the binaries: D:/test - 


Search: Grouped [Z] Advanced [SP Add Entry. | 36 Renove Entry 


Name Value 


ANT_EXECUTABLE ANT_EXECUTABLE-NOTFOUND 
BIBTEX_COMPILER BIBTEX COMPILER-NOTFOUND 
BUILD DOCS 

BUILD EXAMPLES 

BUILD JASPER 

BUILD JPEG 


BUILD OPENEXR 
BUILD PACKAGE ` 
Press Configure to update and display new values in red, then press Generate to generate zelected 
build files. 
Configure | [ Generate | Current Generator: Visual Studio 10 2010 Win64 FEF 3 
C/CH+ Examples: YES = 
Install path: D:/test/install 


Configuring done 


I] , 


1 


图 5-7 CMake 编译 第 三 步 


单 击 Configure 按钮 多 次 运行 ,直到 红字 消失 为 止 。 

补充 一 点 ,在 选择 编译 时 建议 选中 BUILD. EXAMPLE 一 项 ,该 选项 是 询问 是 否 编译 
例 程 ,虽然 编译 的 过 程 中 例子 会 占用 很 多 时 间 , 但 这 对 后 续 的 学 习 有 很 大 的 帮助 。 

(4) 当 图 5-7 中 的 红字 都 消失 后 .在 列表 框 中 显示 的 部 分 找到 Other third-party libraries 
选项 ,注意 观察 里 边 的 Use TBB 和 Use CUDA 是 否 正确 ,如 图 5-8 所 示 。 如 果 没 有 这 两 项 ， 
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Mos. -~ 


则 说 明 前 面 的 安装 过 程 有 遗漏 或 错误 ,也 可 能 是 之 前 安装 好 的 软件 没有 做 测试 ,需要 重新 安 
装 出 错 的 软件 。 


Ele Tools Options Help 


Where is the source code: D: /ÜpenCV2. 4. S/opencv/sources. Browse Source... 
Where to build the binaries: D:/test ~ (Bronse Build... 
Search: Grouped [V] Advanced [d Add Entry | | 3€ Renove Entry 


Name Value 
BUILD_EXAMPLES m 
BUILD_JASPER ` 


Press Configure to update and display new values in red, then press Generate to generate 
selected build files. 


Configure | Í Generate] Current Generator: Visual Studio 10 2010 Wina |] 


XIMEA: NO à 
Intel PerC: BO 


88 


U: 
Use Eigen: 
DelB IE (ver jJ interface $000) 
Use OpenMP: 

Use GCD 

Use Concurrency 
Use C=: 
一 
Use OpenCT: 


$888 


Ë 


NVIDIA CUDA 
Use CUFFT: 
Use CUBLAS: 
USE NVCUVID: 
NVIDIA GPU arch: 
NVIDIA PIX archs: 
Use fast math: 


CIT: 


1 12 13 20 21 30 35 
0 
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图 5-8 CMake 编译 第 四 步 


(5) 确定 包含 TBB 和 CUDA 之 后 单 击 Generate 按钮 进行 生成 ,生成 后 即 可 去 之 前 设 
定 的 文件 夹 中 寻找 生成 的 OpenCV 库 , 用 来 进行 下 一 步 的 编译 。 生 成 后 的 文件 夹 如 图 5-9 
所 示 ,找到 其 中 的 . sln 文件 ,用 Visual Studio 2010 打开 。 

(6) 进入 Visual Studio 2010 中 进行 编译 ,如 图 5-10 所 示 。 如 果 在 CMake 中 选择 生成 
EXAMPLE, 则 对 应 的 解决 方案 中 约 有 263 个 项 目 文件 ; 如 果 选 择 不 生成 EXAMPLE, J xf 
应 的 解决 方案 中 约 有 67 个 项 目 文件 。 接 下 来 在 Debug 界面 中 选择 平台 ,如 果 之 前 编译 的 
是 64 位 就 选择 x64, 如 果 是 32 位 就 选择 Win32, 在 这 些 准备 工作 完成 之 后 右 击 ALL_ 
BUILD 进行 生成 。 生 成 过 程 耗 时 较 长 , 单 次 生成 约 四 小 时 。Debug 完成 之 后 ,将 Debug gk 
成 Release 重新 进行 编译 ,Release 过 程 也 需要 消耗 同样 的 时 间 ,整个 过 程 约 7 小 时 ,期 间 请 
耐心 等 待 。 

(7) Debug 和 Release 都 完成 后 ,这 个 库 就 成 功 生 成 和 编译 完成 了 。 之 后 右 击 
INSTALL, 单 击 “ 生 成 ?命令 , 即 可 将 编译 好 的 文件 放 在 INSTALL 文件 夹 中 ,如 图 5-11 所 
示 , 这 个 过 程 20 分 钟 左右 即 可 完成 。 

(8) 回 到 之 前 有 . sln 的 文件 夹 中 ,可 以 找到 install 文件 夹 ,将 这 个 文件 夹 单 独 复制 取 
出 ,该 文件 夹 中 装 的 就 是 新 生成 的 OpenCV 文件 。 


iis 
gO- Je > PEL + Learn (D) + test » -[*] 
组 织 ” [jns sm o xem 
PT a = i z= 
Ë TE | win-install xs 
m == I ALL BUILD.vcxproj VC++ Project 58 KB 
T—— 1 BB ALL BUnLDvcsproj Siors VC++ Project Fil... 1KB 
忆 ALL BUILD.vexproj.user Visual Studio Pr. 1KB 
ñ zr 回 cmake install.cmake CMAKE 文件 6KB 
=| [Eh cmake uninstal.cmake CMAKE 文件 2KB = 
E CMakeCache.txt 文本 文档 152 KB 
回 CPackConfig.cmeke CMAKE 文件 7KB 
回 CPackSourceConfig.cmake CMAKE 文件 7 KB 
[8] evconfig.h C/C++ Header 4KB 
II INSTALL vexproj VC++ Project 6KB 
S INSTALL vexproj.filters VC++ Project Fil. 1KB 
Z> INSTALLvexproj.user Visual Studio Pr. 1KB 
3 OpenCV.sdf S rver Com. 2,324 KB. 
A - Microsoft Visual. S 
- M opencv modulesvexpro) 2016/6/27 22:04 VC++ Project 18 KB V 
[od OpenCV.sIn 修改 日 期 : 2016/6/27 22:04 创建 日 其 2016/6/27 22:04 | 
Microsoft Visual Studio Solution 大 小 508 KB 


图 5-9 CMake 编译 第 五 步 
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解决 方案 资源 管理 各 
iàelsia 
同 3:5 'OpenCV' (263 NAB) 
`ä 3rdparty 
îi applications 
ië CMakeTargets 
3 extra 


3| modules 


ša samples 


Jj tests accuracy 


使 用 新 OpenCV 库 前 仍然 需要 配置 。 新 生成 的 并 行 OpenCV 
库 在 不 使 用 CUDA 时 跟 原始 的 OpenCV 功能 一 样 ,所 以 新 生成 
的 OpenCV 库 完全 可 以 蔡 代 之 前 的 OpenCV JE. 新 OpenCV 
库 的 配置 过 程 仍然 按照 第 3 章 介 绍 的 配置 方法 可 
可 ,但 是 要 注意 ,在 配置 新 OpenCV 的 过 程 中 要 用 新 的 路 径 去 替 


CMakelists.txt 
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¿z CMakeTargets 
A INSTALL 
[dd PACKAGE 

> uninstall 
[zl zERO CHECK 


新 配置 一 遍 即 


图 5-11 VS 编译 第 二 步 


换 掉 原 本 的 路 径 , 不 要 让 两 个 版 本 共存 。 在 编译 的 过 程 中 路 径 填 错 ,运行 时 就 会 出 现 错误 ， 


并 且 很 难 排查 , 因 


此 必须 把 之 前 的 OpenCV 路 径 全 部 删除 。 
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5.3 VS 内 的 OpenCV 环境 搭建 及 环境 测试 


如 果 想 要 使 用 OpenCV 十 CUDA 来 编程 序 , 可 以 使 用 两 种 方式 来 配置 项 目 文件 。 

第 一 种 方式 是 在 原 CUDA 的 . cu 文件 基础 上 加 上 了 一 个 OpenCV 库 , 程 序 开发 与 前 面 
介绍 的 在 . cu 文件 中 开发 一 样 ,是 将 CPU 的 程序 和 GPU 的 程序 都 写 在 同一 个 文件 中 。 第 
二 种 方式 是 在 第 一 种 方式 的 基础 上 ,加 上 了 几 个 . epp 文件 ,用 来 放置 CPU 中 的 程序 。 第 二 
种 方式 多 用 在 比较 大 型 的 项 目 文件 中 ,大 型 项 目 文件 如 果 仅 有 一 个 . cu 用 来 编写 程序 ,会 显 
得 很 混乱 ,通过 这 种 方式 可 以 使 程序 变 得 更 为 清晰 。 

本 节 将 介绍 两 种 环境 搭建 方式 ,学 习 过 程 中 比较 推荐 第 一 种 配置 方式 ,后 面 的 示例 也 都 
是 基于 第 一 种 配置 方式 实现 的 。 


5.3.1 常用 工程 文件 的 配置 


1. 配置 工程 文件 
CD 这 种 配置 方式 和 前 面 的 CUDA 配置 很 相似 ,首先 需要 新 建立 一 个 项 目 文件 ,如 
图 5-12 所 示 。 


[NET Framework 4 — -] (ma O) EE 


nissa OOOO ] 


ui 


EN | 
图 5-12 建立 空 项 目 文件 


(2) 建立 好 空 项 目 文件 后 需要 调整 其 工作 平台 ,因为 前 面 生成 的 是 64 位 的 OpenCV 
库 , 因 此 需要 使 用 64 位 的 平台 。 如 图 5-13 所 示 。 


图 5-13 调整 平台 


(3) 在 “ 源 文件 ”中 添加 一 个 新 建 项 ,也 就 是 . cu 文件 ,如 图 5-14 和 图 5-15 所 示 。 


解决 方案 资源 管理 器 -4x 
ael 
同 EADE "CUDA test" (1 个 项 目 ) 
4 CUDA test 
BB EBI 
Ca 头 文件 


* |[&g Ctrl+Shift+A 
Cul+shit+X | cg Shift+Alt+A 
CtrlsX 
Ctrl+C 
Ctrl+v 
Del 


图 5-14 添加 .cu 文件 1 


I 
Visual C++ z 
4 NVIDJA CUDA 6.5 B CUDA C/C++ File NVIDIA CUDA 6.5 W: NVIDIA CUDA 6.5 
Creates a file containing CUDA C/C++ 


[Eee | 
Caw: 


DA Visual Studio 2010 codes\CUDA.test\CUDA. test\ MEOS 


图 5-15 添加 .cu 文件 2 


(4) 进行 工程 配置 。 右 击 工程 文件 ,选择 “属性 ”命令 。 在 属性 界面 里 找到 “VC++ 目 录 ” 
选项 ,在 右 侧 的 “包含 目录 ”和 “ 库 目 录 ” 中 依次 添加 OpenCV 和 CUDA 的 头 文件 以 及 对 应 的 
lib 文件。 

示例 包含 目录 的 路 径 为 : 

D:VOpenCV2.4.9Vinstall 64VincludeVopencv2 

D:VOpenCV2.4.9Vinstall 64VincludeVopencv 


D:VOpenCV2.4.9Vinstall 64Vinclude 
D:VCUDA6. 5NCUDA. ToolTikVinclude 
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库 目 录 为 : 


D:\OpenCV2. 4. 9\ install_64\x64\vc10\ lib 
D:\CUDA6. 5\CUDA_ToolTik\lib\Win32 


添加 完成 后 的 结果 如 图 5-16 所 示 。 


~) | emi)... 


S(VCInstaliDir)bintxX86 amd64;S(VCInstallDir)bin/$(WindowsSdk. 
DAS SVCUDA To dude.DAOpencv24.9Vi 


DACUDAS.SVCUDA ToelTikViib zDXOpenCV2A S Vinsi 
SiVCInstalibir)atimfe sre mfc S (VCInstaliDir)atimfevsre fem s 
S(VCInstaliDir)include;S(VCInstaliDir)atimécinclude:S(Windowst 


图 5-16 ”添加 包含 目录 和 库 目录 


(5) 进入 附加 依赖 项 的 配置 ,也 就 是 一 些 对 应 的 lib 文件 。 找 到 “链接 器 "并 在 其 中 找到 
“输入 ”选项 ,在 右 侧 的 “附加 依赖 项 "中 添加 对 应 的 OpenCV 和 CUDA ñ lib 文件 。 需 要 注 
意 的 是 ,在 Debug 和 Release 中 添加 的 lib 文件 是 不 同 的 。 

示例 的 包含 目录 为 : 


cudart.lib 

opencv calib3d249d.lib 
opencv contrib249d.lib 
opencv core249d.lib 
opencv features2d249d. lib 
opencv flann249d.lib 
opencv gpu249d.lib 
opencv highgui249d.lib 
opencv imgproc249d.lib 
opencv legacy249d.lib 
opencv ml249d.lib 

opencv objdetect249d. lib 
opencv ts249d.lib 
opencv video249d.lib 


第 一 个 是 CUDA 的 lib 文件 ,其 余 都 是 OpenCV 的 lib 文件 ,如 图 5-17 所 示 。 

(6) 打开 “清单 工具 ”, 将 “输入 和 输出 ”中 的 “ 租 入 清单 ”这 一 项 改 成 “ 否 ”, 如 图 5-18 
所 示 。 

(7) 至 此 ,Bebug 下 的 配置 就 完成 了 ,之 后 单 击 “ 应 用 ”按钮 ,再 进入 Release 界面 下 进行 
配置 ,如 图 5-19 所 示 。 

Release 5j Debug 不 同 之 处 在 于 “输入 ”中 的 附加 依赖 项 ,要 添加 另 一 组 lib 文件 ,如 
图 5-20 所 示 。 
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图 5-18 修改 嵌入 清单 
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S(VCInstaliDir)atimfc src vmfc S(VCInstaliDir)atimfcvsrevmfcm; $C 
StVCInstalibiinclude;S(VCInstalbietimfeincludeSQWindowsl 


SIAGXRER 
生成 VC+ + 项 目 期 间 , REREIBVSSCHETONRINSRRG, SA PATH 相对 应 . 


Lm. wa) ama) | 


图 5-19 配置 Release 


cudartlib 
'opency calib3d249.lib 
opencv contrib249.lib. 
opency core249.lib. 
opency features2d249.lib 
opency flann249 lib 


5-20 Release 下 的 附加 依赖 项 
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cudart. lib 
opencv_calib3d249. lib 
opencv_contrib249. lib 
opencv_core249. lib 
opencv_features2d249. lib 
opencv_flann249. lib 
opencv gpu249.1lib 
opencv highgui249.lib 
opencv imgproc249.1ib 
opencv legacy249.lib 
opencv m1249.1ib 
opencv objdetect249.1ib 
opencv ts249.1ib 
opencv video249.1ib 


(8) 回 到 VS 的 主 界面 , 右 击 项 目 文件 ,选择 “生成 自 定义 ”命令 ,如 图 5-21 所 示 。 


图 5-21 项 目 生成 自 定义 


找到 基于 CUDA 生成 ,因为 版 本 不 同 ,所 以 基于 项 也 不 完全 相同 ,示例 中 的 生成 自 定义 
项 文件 为 CUDA 6.5, 如 图 5-22 所 示 。 

(9) AE. cu 文件 ,选择 “属性 ”命令 ,如 图 5-23 所 示 。 

在 属性 界面 右 侧 的 “项 类 型 "中 选择 CUDA C/C++ 选项 , 单 击 “ 确 定 ” 铵 钮 ,如 图 5-24 所 
示 , 至 此 ,工程 文件 配置 完成 。 

2. 配置 文件 测试 

完成 工程 文件 配置 后 ,可 以 写 一 段 程序 来 进行 测试 。 这 里 使 用 了 一 个 图 像 遍历 的 程序 
来 作为 测试 程序 ,使 用 CPU 读 人 图像 ,之 后 在 GPU 中 将 整个 图 像 复 制 到 另 一 个 Mat 类 变 
量 中 ,最 后 再 返还 给 CPU 进行 输出 。 
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dCustomizations Vc-targets 


masmí.targets, .props) | targets 


5-23 配置 . cu 属性 
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图 5-24 CUDA C/C++ 生成 
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程序 如 下 : 


inclu c runtime. 
# include "cuda runtime. h" 
# include "device launch parameters. h" 
# include < cuda. h> 
# include < cuda device runtime api.h» 
# include < opencv2 V gpu V gpu. hpp > 
# include < opencv2\gpu\gpumat. hpp > 
# include < opencv2Vopencv. hpp > 
include < opencv. hpp > 
# include hi 
* include < stdio. h> 
* include < iostream > 
# include "opencv2/gpu/device/common. hpp" 
# include "opencv2/gpu/device/reduce. hpp" 
# include "opencv2/gpu/device/functional. hpp" 
# include "opencv2/gpu/device/warp shuffle. hpp" 
using namespace std; 
using namespace cv; 
using namespace gpu; 


template < int nthreads > 


..global _ void compute kernel(int height, int width, const PtrStepb img, PtrStepb dst) 


const int nthreads - 256; 
dim3 bdim(nthreads, 1); 
dim3 gdim(divUp(width, bdim.x), divUp(height, bdim. 


t 
const int x = blockIdx.x * blockDim.x + threadIdx.x; //x 检索 
const int y = blockldx.y * blockDim.y + threadldx.y; //y 检索 
const uchar * src y = (const uchar * )(img + y * ing. step); 
uchar* dst y = (uchar * )(dst + y * dst. step); 
if (x < width && y < height) 
{ 
dst y[3* x] = src y[3* x]; // 三 通道 图 像 
dst y[3* x *1] = src y[3*x* 1]; 
dst y[3* x *2] = src y[3* x* 2]; 
) 
) 
int main() 
Mat a= imread("1ena512. jpg"); 
GpuMat d a(a); 
GpuMat d dst(d a.size(),CV 8UC3); 
int width = a.size().width; // 图 像 横向 
int height = a.size().height; // 图 像 纵 向 


Y); 
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a Eu 


compute_kernel < nthreads ><<< gdim, bdim»»»(height,width,d a,d dst); // 传 递 到 GPU 
Mat dst(d dst); 

imshow(" 原 始 图 像 ",a); 

imshow(" 处 理 后 图 像 ",dst) ; 

waitKey(); 

return 0; 


) 


这 套 程 序 包含 了 很 多 没有 用 到 的 头 文件 ,是 为 了 测试 配置 是 否 成 功 ,程序 运行 结果 如 
图 5-25 所 示 。 


Eee 


4. 


5-25 图 像 遍 历 结 果 


5.3.2 分 别 配置 项 目 文件 


1. 工程 配置 

这 种 配置 方式 是 将 所 有 需要 运行 的 程序 分 成 几 个 部 分 ,就 如 CPU 端的 程序 会 放 在 多 
个 .cpp 文件 中 ,GPU 端 运行 的 程序 放 在 几 个 . cu 和 . cuh 文件 中 ,这 种 配置 可 以 让 程序 更 清 
晰 明了 。 配 置 的 方式 和 使 用 教程 如 下 : 

CD 在 VS 中 新 建 一 个 空 项 目 文件 ,在 其 中 添加 一 个 . epp 文件 ,然后 在 源 文件 位 置 处 再 
次 添加 两 个 CUDA 文件 ,如 图 5-26 所 示 。 

在 添加 新 选项 界面 中 选择 NVIDIA CUDA 6.5 下 边 的 Code 选项 ,两 个 文件 都 选择 
CUDA C/C++File 选项 。 一 个 文件 要 以 . cu 做 结尾 , 另 一 个 要 以 . cuh 做 结尾 ,两 者 没有 本 质 
的 区 别 ,只 是 一 般 用 . cu 文件 存放 GPU 内 要 运行 的 程序 ,而 在 . cuh 中 要 放 进 CUDA 的 头 文 
件 , 如 图 5-27 所 示 。 

(2) 根据 生成 的 OpenCV ,选择 64 位 或 32 位 平台 .这 里 都 是 在 x64 平台 下 ,如 图 5-28 
BUR. 

(3) 右 击 项 目 选 项 , 单 击 “ 属 性 ”命令 进行 配置 。 这 与 之 前 有 些 不 同 ,要 将 “包含 目录 ” 
“引用 目录 ”和 “ 库 目 录 ” 三 项 都 要 填 上 ,如 图 5-29 所 示 。 
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Creates a file containing CUDA C/C++ 
source code 


NVIDIA CUDA 65 


C 
aa 


图 5-26 建立 多 个 文件 


a test2 


5-28 ”更 换 平 台 


“包含 目录 ”中 要 填 的 是 OpenCV 和 CUDA 的 目录 文件 ,示例 中 的 路 径 为 : 


D:\OpenCV2.4.9\install 64\include\opencv2 
D:\OpenCV2.4.9\install 64\include\opencv 
D:\OpenCV2.4.9\install 64\include 
D:NCUDA6. 5\CUDA_ToolTik\include 


, CUDA 与 OpenCV 并 行 图 像 处 理 实战 


S(VCInstaliDir)binV86 amd64S(VCInstallDir)bin;QWindowsSdk 
'S(VCInstaliDirjinclude;S(VCInstaliDir)atimfcUnclude;S(Windo 


S(VCinstsIDi)stimks ibusmda: vere ei 


b C/C++ s52 Sarto et herente s vinetal Di atmo renies 
> mium SKER $(VCInstallDirjinclude;$(VCInstallDir)atimfc\inchade;$(Windows{ 


库 目录 
生成 VC+ + 项 目 期间 , 搜索 库 文 件 时 使 用 的 路 径 。 与 环境 专 量 LIB 相对 应 . 


(ns. Ew [epw | 


图 5-29 添加 包含 目录 ,引用 目录 和 库 目录 


“引用 目录 ”中 要 添加 CUDA 中 的 lib 项 ,示例 的 引用 目录 为 ， 
D:\CUDA6. 5NCUDA. ToolTikMl ibVx64 
“ 库 目录 ”中 要 添加 OpenCV 和 CUDA 的 lib 文件 ,示例 路 径 为 : 


D:VOpenCV2.4.9NVinstall 64\x64\vcl0\1lib 
D:VCUDA6. 5\CUDA_ToolTik\lib\x64 


(4) 进入 附加 依赖 项 的 配置 ,选择 "链接 器 ”一 “输入 "选项 , 右 侧 第 一 个 就 是 “附加 依赖 
项 ?选项 ,如 图 5-30 所 示 。 


在 Debug 和 Release 两 个 模式 下 添加 附加 依赖 项 有 些 区 别 。 在 Debug 模式 下 添加 : 


cudart.lib 

opencv calib3d249d. lib 
opencv contrib249d.lib 
opencv core249d.lib 
opencv features2d249d.lib 
opencv flann249d.lib 
opencv gpu249d.lib 
opencv highgui249d.lib 
opencv imgproc249d.lib 
opencv legacy249d.lib 
opencv ml249d.lib 

opencv objdetect249d. lib 
opencv ts249d.lib 

opencv video249d.lib 
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图 5-30 ”附加 依赖 项 配置 


在 Release 模式 下 需要 添加 : 


cudart.lib 

opencv calib3d249.lib 
opencv contrib249.1lib 
opencv core249.1lib 
opencv features2d249.1ib 
opencv flann249.1lib 
opencv gpu249.1lib 
opencv highgui249.1lib 
opencv imgproc249.1lib 
opencv legacy249.1lib 
opencv ml249.1ib 

opencv objdetect249.1ib 
opencv ts249.1ib 
opencv video249.1ib 


(5) 嵌入 清单 选项 。 回 到 属性 界面 ,选择 “清单 工具 ”~ 输入 和 输出 ?选项 ,并 在 右 侧 将 
“嵌入 清单 ”选项 改 成 “ 否 ”, 如 图 5-31 所 示 。 

(6) 将 属性 页 中 的 Debug 改 成 Release, 如 图 5-32 所 示 , 重 新 进行 配置 ,执行 步骤 (3) 
(4)(5) ,但 是 请 注意 在 “附加 依赖 项 ?里 边 Debug 和 Release 所 要 填写 的 东西 是 不 一 样 的 。 

(7) 回 到 主 界面 , 右 击 项 目 文件 ,选择 “生成 自 定义 ”命令 ,选中 CUDA 6.5 复 选 框 即 可 ， 
如 图 5-33 所 示 。 

至 此 ,配置 完成 .可 进入 编程 测试 环节 。 


8» 


CUDA 与 OpenCV 并 行 


0). | 


SUntDinS(TargetNamejS(TargetExt)embed .manifestres 
= 


附加 清单 文件 
用 于 描 定 需要 处 理 的 清单 。(-manifest [清单 1] 清单 2] —) 


[m J| m | 


图 5-31 修改 嵌入 清单 


$ntDir)$(TargetName)$(TargetExt).embed.manifest.res 
= 


图 5-32 配置 Release 选项 
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E masm(targets, .props) $(VCTargetsPath)MBuildCustomizationsymasm.targets 


图 5-33 生成 自 定 义 


2. 工程 文件 测试 

本 节 将 测试 工程 文件 ,使 用 的 是 与 前 面相 同 的 反 向 算法 。 

反 向 算法 的 核心 思想 是 用 255 减 去 灰 度 图 的 像素 值 ,得 到 颜色 翻转 的 图 像 : 

g(z,y)= 255— f(x,y) (5-1) 

在 这 里 的 反 向 算法 中 ,为 了 方便 测试 ,将 使 用 单 通道 灰 度 图 。 其 中 . cpp 文件 中 存放 控 
制 CPU 部 分 的 程序 ,包括 图 像 的 读 入 、 简 单 的 预 处 理 等 等 ; 而 GPU 部 分 主要 负责 计算 任务 ， 
因此 . cu 文件 存放 的 是 利用 GPU 实现 遍历 的 算法 ,而 . cuh 文件 存放 的 是 CUDA 的 头 文件 。 

CD 反 向 算法 . epp 文件 。 


# include < opencv2/core/core. hpp> 

# include < opencv2/imgproc/imgproc. hpp > 
# include < opencv2/highgui/highgui. hpp> 
#include <cv.h> 

# include < highgui. h> 


# include < stdio. h> 
# include < iostream > 


# include "cuda. cuh" 


using namespace cv; 
using namespace std; 
extern "C" void imghandle(uchar * ptr, int a, int b, int c); 


int main( void ) 

{ 
IplImage * imggray = cvLoadImage("lena256. jpg", 0); 
cvNamedWindow( "原始 图 像 ", CV. WINDOW AUTOSIZE); 
cvShowImage( "原始 图 像 ", imggray) ; 
double timeSpent = (double)getTickCount(); 
int height = imggray — > height; 


Or 
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int width = imggray -> width; 
int step = imggray — > widthStep; 
int channels = imggray - > nChannels; 
int nwidthstep = imggray - > widthStep; 
f define img size height * width * nChannels 
uchar * imgdata = (uchar * ) imggray -> imageData; 
printf("Processing a % dx d image with % d channels Wn", height, width, channels); 
imghandle( imgdata, height, width, nwidthstep); 
timeSpent = ((double)getTickCount() — timeSpent)/getTickFrequency(); 
cout «« "Time spent in milliseconds: " «« timeSpent * 1000 «« endl; 
cvNanedilindow(" JZ [5] FE] f£ " , CV WINDOW. AUTOSIZE) ; 
cvShowInage( " JZ [5] P] f@" , inggray) ; 
cvWaitKey(0); 
) 


(2) 反 向 算法 的 .cu 文件 。 


* include "cuda. cuh" 
. global void imgreverse(unsigned char * dev ptr, int height, int width, int nWidthStep) 
1 

int ix - threadIdx.x * blockIdx.x * blockDim.x; 

int iy = threadIdx.y + blockIdx.y * blockDim.y; 

int offset - ix * iy * nWidthStep; 

if(ix«width&&iy-« height) 

{ 


dev_ptr[offset] = 255 - dev ptr[offset]; 


} 


extern "C" 
void imghandle(unsigned char * ptr, int height, int width, int nWidthStep) 


unsigned char * dev ptr; 
cudaMalloc((void* * )&dev ptr,256 * 256); 
cudaMemcpy(dev. ptr, ptr, 256 * 256, cudaMemcpyHostToDevice); 
dim3 grids(16,16); 
dim3 threads(16,16); 
imgreverse <<< grids, threads »»»(dev ptr, height, width, nWidthStep); 
cudaMemcpy( ptr, dev ptr, 256 * 256, cudaMemcpyDev iceToHost ) ; 
cudaFree(dev ptr); 
) 


(3) 反 向 算法 的 . cuh 文件 。 


# include "cuda runtime. h" 
# include "device launch parameters. h" 
# include < iostream > 


(4) 运行 结果 。 
如 图 5-34 所 示 为 运行 结果 , 左 侧 是 原 图 像 , 右 侧 是 经 过 反 向 算法 处 理 后 的 图 像 。 


Co 程序 简 析 。 
(D 本 次 没有 使 用 OpenCV 2 系列 中 的 Mat 类 ,而 是 使 用 了 OpenCV 1 系列 中 的 cvLoadImage 
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5-34 测试 结果 


等 函数 ,与 OpenCV 2 系列 的 函数 相 比 其 效率 低 \ 不 够 方便 ,同时 还 需要 手动 释放 指针 ,不 然 
就 很 容易 出 现 指针 越界 等 情况 。 虽 然 这 种 方法 已 经 很 少 使 用 了 ,但 为 了 更 全 面 地 学 习 , 本 次 
程序 还 是 采用 了 OpenCV 1 系列 的 函数 。 

© E. cpp 文件 中 是 无 法 直接 调用 . cu 文件 中 的 非 _global__ 型 的 函数 的 。 如 果 想 实现 
这 种 调用 ,就 需要 在 . cu 文件 中 使 用 一 个 “extern "C"”, 以 扩展 一 个 C 库 的 方式 将 . cpp 文件 
中 的 函数 传送 到 . cu 文件 中 。 


5.4 GPU 图 像 处 理 实例 


本 节 将 给 出 几 个 基础 的 示例 ,并 在 每 个 示例 后 给 出 程序 的 解释 ,以 帮助 人 门 级 读者 简略 
了 解 GPU 图 像 处 理 的 处 理 过 程 。 如 果 需 要 更 深入 的 学 习 , 建 议 阅读 OpenCV 和 CUDA 的 
官方 手册 。 


5.4.1 反 向 算法 


反 向 算法 在 前 面 已 经 有 所 介绍 ,这 里 将 处 理 三 通道 的 彩色 图 像 。 本 节 以 及 后 续 几 节 的 
程序 ,都 是 直接 在 . cu 文件 中 实现 的 。 
1. 程序 实现 


f include "cuda runtime. h" 

* include "device launch parameters. h" 

# include < cuda. h> 

# include < cuda device runtime api.h» 

# include < opencv2\gpu\gpu. hpp > 

# include < opencv2Vgpu V gpumat.. hpp > 

# include < opencv2Vopencv. hpp > 

# include < opencv. hpp> 

# include < stdio.h» 

include < iostream> 

# include < memory? 

# include "opencv2/gpu/device/common. hpp" 
# include "opencv2/gpu/device/reduce. hpp" 
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# include "opencv2/gpu/device/functional. hpp" 

# include "opencv2/gpu/device/warp_shuffle. hpp" 
using namespace std; 

using namespace cv; 

using namespace gpu; 


template < int nthreads > 
. global void compute kernel(int height, int width, const PtrStepb img, PtrStepb dst) 


t 
const int x = blockIdx.x * blockDim.x + threadIdx.x;  //x 方 向 检索 
const int y = blockIdx.y * blockDim.y + threadldx.y;  //y 方 向 检索 
const uchar * src y = (const uchar * )(img-* y * img. step);  // 原 图 像 
uchar* dst y = (uchar * ) (dst * y * dst. step); 
if (x < width && y < height) 
{ 
dst_y[3 * x] = 255- src_y[3 * x]; // 三 通道 彩色 图 像 处 理 
dst y[3* x*1] = 255- src y[3* x* 1]; 
dst y[3* x * 2] = 255- src y[3*x*2]; 
) 
) 
int main() 


Mat a= inread("lena512. jpg"); 


GpuMat d a(a); //GPUMat 
GpuMat d dst(d a.size(),CV 80UC3); 

int width = a.size().width; // 横 向 ,x 方向 
int height = a.size().height; // 纵 向 ,Y 方 向 


const int nthreads = 256; 
dim3 bdim(nthreads, 1); 
dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 


compute kernel. nthreads ><<< gdim, bdim>>>(height, width,d a,d dst); 
Mat dst(d dst); 

imshow(" 原 始 图 像 ",a) ; 

imshow(" 反 向 图 像 ",dst) ; 

waitKey(); 

return 0; 


) 

2. 运行 结果 

程序 运行 结果 如 图 5-35 所 示 。 

3. 程序 简 析 

1) GpuMat 类 

GpuMat 类 是 OpenCV 为 GPU 设计 的 Mat 类 变量 。 它 仅 可 以 在 GPU 内 使 用 ,相当 于 
CPU 中 的 Mat 类 ,可 以 直接 传递 给 GPU。 如 果 在 CPU 端 使 用 imshow 输出 GpuMat 类 参 
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图 5-35 三 通道 图 像 反 向 算法 运行 结果 
数 或 者 是 在 GPU 端 输出 Mat 类 参数 则 都 会 出 错 , 使 用 方式 如 下 : 


GpuMat d a(a); // 将 Mat 类 a 赋 给 GpuMat 类 的 d_a 

Mat dst(d dst); // 将 GPU 处 理 后 的 GpuMat 类 d dst 赋值 给 Mat 类 的 dst 
GpuMat d dst(d a.size(),CV 80C3); // 5€ X. GpuMat 类 d dst, RFX d a,8 位 三 通道 
GpuMat 类 的 详细 数据 结构 如 下 : 


* 它 包 含 了 下 面 的 数据 项 。 

—data; GPU 内 存 指针 数据 开始 

一 step: 距离 之 间 的 数据 是 两 个 连续 的 行 ; 
—col.row: 字段 包含 的 图 像 大 小 ; 

一 其 他 字段 仅 供 内 部 使 用 。 

。 内 存 分 配 。 


void GpuMat::GpuMat(const cv: :Size & size, int type); 
void GpuMat::create(const cv::Size & size, int type); 


内 存 分 配 应 用 示例 : 


GpuMat img( Size(1024,720), CV_8U ); 
GpuMat img2; 

img2.create(Size(1,1000), CV 32FC3 ); 

其 中 : 

CV_8U 一 一 单 通道 灰 度 图 ; 
CV_8UC3 一 一 三 通道 RGB 彩色 图 ; 
CV_32FC3 一 一 3D 立体 点 ; 
CV_16U 一 一 深度 图 。 

* 为 用 户 分 配 数据 创建 GpuMat 数据 头 。 
void GpuMat::GpuMat( const cv::Size& size, int type, void* data, size t step); 
trust: :device_vector < float > vector(10000); 


GpuMat header( Size(vector.size(),1),CV 32F, &vector[0], vector.size() * sizeof(float)); 
Cv::gpu::threshold(header, header,value, 1000, THRESH BINARY ); 
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* GPU-CPU 之 间 的 数据 传递 。 


void GpuMat::GpuMat(const cv::Mat& host data); 
void GpuMat::GpuMat(const cv::Mat& host data); 
void GpuMat: :download(cv::Mat& host data); 
void GpuMat: :copyTo(cv: :gpu: :GpuMat& other); 


传递 数据 应 用 示例 : 

Mat host image = cv::imload("lena512. jpg"); // 读 入 图 像 

GpuMat device imagel; 

device imagel.upload(host imagel); // 分 配 内 存 并 传 到 GPU 中 
GpuMat device image2; 

Device imagel.copyTo(device image2); // 分 配 内 存 并 进行 复制 
Device image2.download(host image); // 下 载 数据 

2) 线程 数量 


const int nthreads - 256; 

dim3 bdim(nthreads, 1); 

dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 

为 了 保证 线程 的 数量 与 像素 点 的 数量 相同 ,使 用 这 种 方式 来 划分 线程 还 是 很 合理 的 。 
首先 分 配 了 一 个 256 X 1 大 小 的 线程 块 , 之 后 每 个 线程 块 分 线程 时 采用 divUp (width, 
bdim. x) 函数 进行 分 配 。 

divUp 是 OpenCV 内 部 的 一 个 函数 ,其 源码 定义 如 下 : 


. host | device _ forceinline_ 


{ 


int divUp(int total, int grain) 


return (total * grain - 1) / grain; 
) 
这 样 在 调用 线程 块 中 的 线程 时 , 既 可 满足 需要 开启 的 线程 数量 要 求 ,而且 可 以 避免 每 一 
个 线程 块 中 的 线程 数量 超出 线程 块 内 的 上 限 问 题 。 
例如 ,输入 的 图 片 是 512X512 个 像素 点 ,线程 块 的 启动 数量 依旧 为 (256,1) 个 ,而 每 个 
线程 块 中 的 线程 就 变 成 了 (2,512) 个 ， 
(512 十 256 一 1) 二 256 二 2. 996 一 2 
(6512+1—1)+1=512 
通过 这 种 方式 可 保证 线程 的 数量 大 于 等 于 像素 点 的 数量 , 即 确保 每 一 个 像素 点 可 以 分 
配 到 一 个 线程 。 当 图 像 的 像素 点 数量 为 64X64 时 ,按照 这 个 算法 分 配 的 线程 块 为 (256,1) 
个 ,每 个 线程 块 中 的 线程 为 (1 ,64)。 
3) if (x € width &-& y < height) 
当 启用 的 线程 数量 较 多 时 ,使 用 这 个 方式 ,就 可 以 剔除 超过 像素 点 数量 的 线程 ,比如 之 
前 64X64 个 像素 点 的 图 片 ,在 分 配 线程 的 时 候 启用 了 (256,1)(1,64) 个 线程 ,通过 这 种 方式 
可 以 将 超过 图 像 大 小 的 多 余 线 程 剔 除 掉 , 防 止 计算 时 出 现 错误 。 
4) 三 通道 处 理 


dst y[3* x] = 255- src y[3* x]; 
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dst y[3* x+1] 

dst y[3* x * 2] 

处 理 三 通道 图 像 时 ,图 像 是 以 BGR 的 形式 进行 存储 的 ,也 就 是 说 ,一 个 像素 点 会 被 分 成 
三 个 连续 的 块 。 处 理 时 需要 使 用 x 方向 的 索引 ,将 其 拆 分 开 进行 处 理 ,因此 第 一 行 处 理 的 是 
B、 第 二 行 是 G, 第 三 行 是 R, 最 后 将 处 理 完成 的 像素 点 返回 到 CPU ,并 进行 输出 。 而 在 处 理 
单 通道 的 灰 度 图 像 时 , 读 人 仍然 可 以 按照 这 种 三 通道 方式 进行 读 人 ,复制 同样 的 图 像 信息 在 
三 通道 中 ,经 过 GPU 处 理 后 进行 返还 ,最 后 得 到 的 图 像 也 是 灰 度 图 处 理 后 的 图 像 , 只 是 将 
被 存 为 三 通道 灰 度 图 ,处 理 结果 如 图 5-36 所 示 。 


255- src y[3* x t 1]; 
255- src y[3* x * 2]; 


图 5-36 单 通道 反 向 算法 运行 结果 


5.4.2 图 像 加 法 ,减法 


1. 图 像 加 法 
图 像 的 加 法 是 图 像 处 理 中 很 常见 同时 也 是 很 基础 的 算法 ,目标 是 将 两 张 图 县 加 起 来 。 
通过 GPU 进行 处 理 , 使 用 之 前 介绍 的 反 向 算法 的 流程 ,只 是 将 反 向 算法 变换 成 了 图 像 的 悉 
加 。 图 像 加 法 的 数学 公式 如 下 : 
Z(z=,y)= 0.5X f(x.y)t-0.5Xg(x.y) (5-2) 
程序 实现 : 


# include "cuda runtime. h" 

# include "device launch parameters. h" 

# include < cuda. h> 

# include < cuda device runtime api.h» 

# include < opencv2\gpu\gpu. hpp > 

# include < opencv2\gpu\gpumat. hpp > 

# include < opencv2\opencv. hpp > 

# include < opencv. hpp> 

# include < stdio. h> 

# include < iostream > 

# include < memory > 

# include "opencv2/gpu/device/common. hpp" 
# include "opencv2/gpu/device/reduce. hpp" 
# include "opencv2/gpu/device/functional. hpp" 
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# include "opencv2/gpu/device/warp shuffle. hpp" 
using namespace std; 

using namespace cv; 

using namespace gpu; 


template < int nthreads > 


. global _ void compute kernel(int height, int width, const PtrStepb img, const 
PtrStepb img2,PtrStepb dst) 
{ 
const int x = blockIdx.x * blockDim.x + threadldx.x; //x 方 向 检索 
const int y = blockIdx.y * blockDim.y + threadIdx.y; //Y 方 向 检索 
const uchar * src y = (const uchar * )(img + y * img. step); 
const uchar * src y2 = (const uchar * )(img2 + y * img2. step); 
uchar* dst y = (uchar * )(dst + y * dst. step); 
if (x < width && y < height) 
{ 
dst y[3* x] = src y[3* x] * 0.5 + src_y2[3 * x] * 0.5; // 三 通道 图 像 
dst y[3* x * 1] = src y[3*x*1]*0.5* src y2[3* x*1] * 0.5; 
dst y[3*x*2] = src y[3*x*2] *0.5* src y2[3* x * 2] * 0.5; 
) 
) 
int main() 


Mat b= imread("wood. jpg"); 
Mata- imread("rain. jpg"); 


GpuMat d a(a); 
GpuMat d b(b); 


GpuMat d dst(d a.size(),CV 8UC3); 


int width = a.size().width; 
int height = a.size().height; 


const int nthreads - 256; 
dim3 bdim(nthreads, 1); 
dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 


compute kernel <nthreads ><<< gdim，bdim >>>(height, width,d a,d b,d dst); 
Mat dst(d dst); 

imshow(" JE fs F1 f$ a",a) ; 

imshow(" 原 始 图 像 b", b); 

imshow(" 全 加 后 图 像 ", dst); 

waitKey(); 

return 0; 
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运行 结果 如 图 5-37 所 示 。 


5-37 图 像 加 法 


2. 图 像 减法 
图 像 减 法 与 图 像 加 法 相反 ,是 图 像 中 点 对 点 的 相 减 ,通常 用 于 去 掉 图 像 中 的 相同 部 分 ， 
得 到 图 像 中 有 差异 的 部 分 。 但 是 图 像 减法 需要 注意 像素 点 的 值 小 于 0 的 情况 ,因此 可 以 使 
用 绝对 值 的 方式 或 者 使 用 其 他 方式 灵活 地 得 到 图 像 之 间 的 差异 。 
图 像 减法 的 数学 公式 如 下 : 
Z(z.y)= |f(z,y)— g(x,y)| (65-3) 
因为 多 数 图 像 中 ,相似 的 部 分 很 多 ,做 差 之 后 为 纯 黑 色 , 即 像素 点 的 值 为 0。 因 此 ,为 了 
效果 更 明显 一 些 , 可 以 在 相 减 结果 基础 上 增加 一 个 反 向 算法 使 其 更 容易 观察 : 
Z(zyy) 一 255 一 |JGz,y) 一 5Czy)1| (5-4) 
程序 实现 : 


# include "cuda_runtime. h" 

# include "device_launch_parameters.h" 

# include < cuda. h> 

# include < cuda_device_runtime_api. h> 

# include < opencv2\gpu\gpu. hpp > 

# include < opencv2\gpu\gpumat. hpp > 

# include < opencv2\opencv. hpp> 

# include < opencv. hpp > 

# include < stdio. h> 

# include < iostream > 

* include < memory > 

# include "opencv2/gpu/device/common. hpp" 

# include "opencv2/gpu/device/reduce. hpp" 

# include "opencv2/gpu/device/functional. hpp" 
# include "opencv2/gpu/device/warp_shuffle. hpp" 
using namespace std; 

using namespace cv; 

using namespace gpu; 


template < int nthreads > 
__global__ void compute kernel ( int height, int width, const PtrStepb img, const 
PtrStepb img2,PtrStepb dst) 
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const int x = blockIdx.x * blockDim.x + threadIdx.x; 
const int y = blockIdx.y * blockDim.y + threadIdx.y; 


const uchar * src y = (const uchar * )(img + y * ing. step); 
const uchar * src y2 = (const uchar * )(img2 + y * img2. step); 
uchar* dst y = (uchar * ) (dst + y * dst. step); 


if (x < width && y < height) 

{ 
dst y[3* x] = 255- abs(src_y[3 * x] - src y2[3 * x]); 
dst y[3* x*1] = 255-abs(src y[3* x * 1]- src. y2[3 * x 1]); 
dst y[3*x*2] = 255- abs(src y[3*x*2]- src y2[3*x* 2]); 


) 
int main() 


Mat b= imread("vessel. jpg"); 
Mat a= imread("vesse12. jpg"); 


GpuMat d a(a); 
GpuMat d b(b); 
GpuMat d dst(d a.size(),CV 8UC3); 


int width = a.size().width; 
int height = a.size().height; 


const int nthreads - 256; 
dim3 bdim(nthreads, 1); 
dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 


compute kernel:« nthreads ><<< gdim，bdim >>>(height, width,d a,d b,d dst); 
Mat dst(d dst); 

inshow(" Eit FE f a" ,a) ; 

inshow(" ii fs Fd ff b", b); 

imshow(" 相 减 后 的 图 像 ", dst); 

waitKey(); 

return 0; 


) 


运行 结果 如 图 5-38 所 示 ,左上 角 和 右上 和 角 为 差异 图 像 ,左下 角 为 相 减 后 的 图 像 , 右 下 角 
为 相 减 后 反 向 的 结果 。 


5.4.3 图 像 腐蚀 .膨胀 


图 像 的 腐蚀 和 膨胀 是 图 像 数学 形态 学 的 基础 之 一 ,图 像 腐蚀 (Erosion) 可 以 使 一 个 孤立 
的 低 亮 噪音 扩大 化 ,同时 也 可 以 将 物体 的 一 些 低 亮度 的 关键 细节 丢失 。 图 像 膨 胀 (Dilation) 
可 以 使 一 个 孤立 的 高 亮 噪声 扩大 化 ,也 可 以 使 物体 的 一 些 高 亮度 噪声 的 关键 细节 丢失 中 。 
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图 5-38 图 像 相 减 


1. 二 值 图 像 的 腐蚀 和 膨胀 

1) 二 值 图 像 腐蚀 

在 图 像 中 , 取 一 个 3X3 的 像素 块 , 中 间 点 的 四 周 如 果 有 像素 点 的 值 为 0, 则 将 中 心 点 的 
像素 值 变 为 0, 如 图 5-39 所 示 。 


图 5-39 二 值 腐蚀 的 原理 


程序 实现 : 
首先 将 原始 的 彩色 图 像 读 和 ,转换 成 单 通道 的 灰 度 图 像 ,在 将 灰 度 图 像 传人 GPU 中 ， 
先 变换 为 二 值 图 像 ,最 后 对 二 值 图 像 实现 图 像 腐 蚀 的 算法 。 


# include "cuda_runtime. h" 


0r 
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# include "device launch parameters.h" 
* include < cuda.h> 
# include < cuda device runtime api.h» 
# include < opencv2\gpu\gpu. hpp > 
include < opencv2 V gpuNVgpumat.. hpp > 
# include < opencv2\gpuNgp hpp 
# include < opencv2Vopencv. hpp > 
# include < opencv. hpp > 
* include < stdio. h> 
* include < iostream > 
# include < nemory ^ 
# include < cv. h> 
# include < highgui.h» 
# include < opencv2/core/core. hpp > 
# include < opencv2/ ingproc/imgproc. hpp > 
# include "opencv2/gpu/device/common. hpp" 
inc opencv2/gpu/device/reduce. hpp' 
# include " 2/gpu/device/reduce. hpp" 
# include < opencv2/highgui/highgui.hpp- 
# include "opencv2/gpu/device/functional. hpp" 
include "opencv2/gpu/device/warp shuffle. hpp" 
using namespace std; 
using namespace cv; 
using namespace gpu; 


template < int nthreads > 
. global void compute kernel(int height, int width, const PtrStepb img,PtrStepb dst) 
t 
blockIdx.x * blockDim.x + threadldx.x; //x 索引 
blockldx.y * blockDim.y + threadldx. y; /人 7 索引 


const int x 


const int y 
// 图 像 二 值 化 

const uchar * src yy = (const uchar * )(img + y * ing. step); 

uchar* dst yy = (uchar * )(dst + y * dst. step); 


if(x< width && y « height) 
{ 
if( src_yy[x]> = 128 ) 
dst_yy[x] = 255; 
else 
dst yy[x] = 0; 


// 二 值 化 图 像 实现 图 像 腐蚀 
const uchar * src y = (const uchar * )(img); 
uchar* dst y = (uchar * ) (dst); 


intx 1 - max(0,x- 1); // 用 来 找到 图 像 四 周 的 像素 点 
int xl = min(width- 1,x 1); 

inty 1 = max(0,y- 1); 

int y = min(height- 1,y *1); 


if (x < width && y < height) 
t 
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if( 
src y[y 1* img. step* x 1] --0 || 
src y[y 1* ing. step + x] == 0 || 
src y[y 1* img. step + x1] -- 0 || 
src y[y * img.step* x 1] -- 0 || 
src y[y * img. step + x] -- 0 || 
src y[yl* img. step* x 1] -- 0 || 
src y[y * img. step + x] -- 0 || 
src y[y* ing. step * x1] ==0 ) 


dst[y * img. step + x] = 0; 


int main() 


Mat src= imread("lena256. jpg",1); 
Mat a= imread("lena256.jpg",0); 


int b= a. channels(); 
printf(" 读 人 图 图 像 通道 = % d\n ",b); 


GpuMat d a(a); 

GpuMat d dst(a); 

int width = a.size().width; 
int height = a.size().height; 


const int nthreads - 256; 

dim3 bdin(nthreads, 1); // 确 定 线程 数量 
dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 

compute kernel:« nthreads ><<< gdim，bdim >>>(height, width,d a,d dst); 


Mat dst(d dst); 
imshow(" 原 始 图 像 ", src); 
imshow(" 单 通道 图 像 ", a) ; 
imshow(" 图 像 腐 蚀 后 的 效果 图 ", dst); 
waitKey(); 

return 0; 


运行 结果 如 图 5-40 所 示 。 

2) 二 值 图 像 膨 胀 

膨胀 与 腐蚀 相反 ,在 图 像 中 , 取 一 个 3X3 的 像素 块 ,中 间 点 的 四 周 如 果 有 像素 点 的 值 为 
255, 则 将 中 心 点 的 像素 值 变 为 255, 如 图 5-41 所 示 。 
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图 5-40 二 值 腐蚀 


5-41 二 值 膨 胀 的 原理 


程序 实现 : 
首先 将 原始 的 彩色 图 像 读 和 ,转换 成 单 通道 的 灰 度 图 像 , 再 将 灰 度 图 像 传人 GPU 中 ， 
先 变换 为 二 值 图 像 , 最 后 通过 二 值 图 像 实现 图 像 膨 胀 算法 。 


# include "cuda runtime. h" 

# include "device launch parameters. h" 
# include < cuda. h> 

# include < cuda device runtime api.h> 
# include < opencv2\gpu\gpu. hpp > 

# include < opencv2\gpu\gpumat. hpp > 

# include < opencv2Nopencv. hpp > 

# include < opencv. hpp > 

* include < stdio. h> 

# include < iostream > 

* include < memory > 

* include < cv. h> 


] 第 5 章 ”基于 GPU 的 并 行 


# include < highgui.h> 

# include < opencv2/core/core. hpp > 

# include < opencv2/ imgproc/imgproc.hpp > 

# include "opencv2/gpu/device/common. hpp" 

# include "opencv2/gpu/device/reduce. hpp" 

# include < opencv2/highgui/highgui.hpp > 

# include "opencv2/gpu/device/functional. hpp" 
# include "opencv2/gpu/device/warp shuffle. hpp" 
using namespace std; 

using namespace cv; 

using namespace gpu; 


template < int nthreads > 


..global _ void compute kernel(int height, int width, const PtrStepb img, PtrStepb dst) 


t 
// 图 像 二 值 化 
const int ix = blockIdx.x * blockDim.x + threadIdx.x; 
const int iy = blockIdx.y * blockDim.y + threadIdx. y; 
const uchar* src yy = (const uchar * )(img * iy * img. step) ; 
uchar* dst yy = (uchar * )(dst + iy * dst. step); 


if(ix« width && iy« height) 
{ 
if( src_yy[ix]>= 128 ) 
dst yy[ix] = 255; 
else 
dst_yy[ ix] = 0; 


// 利 用 二 值 图 实现 图 像 膨胀 
const uchar * src y = (const uchar * )(img); 
uchar* dst y = (uchar * ) (dst); 


int ix 1 = max(0,ix- 1); 
int ixl = min(width- 1,ix * 1); 
int iy 1 = max(0,iy- 1); 
int iyl = min(height- l,iy* 1); 


if (ix < width && iy < height) 
{ 
if( 

src y[iy 1 * img. step* ix 1] -- 0 || 
src y[iy 1 * img. step + ix] 
src y[iy 1 * img. step + ixl] 
src y[iy* img. step + ix 1 
src y[iy* img. step + ix] 
src y[iyl* img. step + ix 1] -- 0 || 
src y[iy * img. step + ix] oll 
src y[iy* img. step + ix1] == 0 ) 


dst[ iy * img. step + ix] = 255; 
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int main() 


Mat src= imread("lena256.jpg",1); 
Mat a= imread("lena256.jpg",0); 


int b= a. channels(); 
printf(" 读 人 图 图 像 通道 = % d\n", b); 


GpuMat d a(a); 

GpuMat d dst(a); 

int width - a.size().width; 
int height - a.size().height; 


const int nthreads - 256; 

dim3 bdim(nthreads, 1); 

dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 

compute kernel: nthreads »««« gdim, bdim»»»(height, width,d a,d dst); 


Mat dst(d dst); 

imshow(" 原 图 像 ", src); 
imshow(" 单 通道 图 像 ", a) ; 

imshow(" 图 像 膨 胀 后 的 效果 图 ", dst); 
waitKey(); 

return 0; 


) 
实现 结果 如 图 5-42 所 示 。 


图 5-42 二 值 图 像 膨 胀 
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2. 灰 度 图 像 腐蚀 和 膨胀 

1) 灰 度 图 像 腐蚀 

与 二 值 图 像 腐蚀 的 原理 一 样 ,在 灰 度 图 的 情况 下 ,图 像 的 腐蚀 就 是 将 一 个 确定 范围 内 的 
最 小 值 赋 给 中 心 位 置 的 像素 点 ,如 图 5-43 所 示 。 


209 125 191 9 168 32 65 209 125 19] 9 168 52 65 
33 234 162 44 203 128 235 33 234 162 44 203 128 235 
121 150 55 [3660032 231 121 150 55 [26600032 1873 231 
32 76 244 L121—41 122 136 32 76 244 L121—32 —122- 136 
14 158 191 246 196 98 204 14 158 191 246 196 98 204 
235 8 1 71 126 235 66 235 8 1 71 126 235 66 


图 5-43 灰 度 图 像 腐 蚀 原 理 
程序 实现 ， 


# include "cuda runtime. h" 

# include "device launch parameters. h" 

# include < cuda.h> 

# include < cuda device runtime api.h» 

# include < opencv2\gpu\gpu. hpp > 

# include < opencv2\gpu\gpumat. hpp > 

# include < opencv2Vopencv. hpp > 

# include < opencv. hpp > 

# include < stdio.h» 

# include < iostream > 

# include < memory > 

# include < cv. h> 

# include < highgui. h> 

# include < opencv2/core/core. hpp > 

# include < opencv2/imgproc/imgproc. hpp > 
# include "opencv2/gpu/device/common. hpp" 
# include "opencv2/gpu/device/reduce. hpp" 
# include < opencv2/highgui/highgui. hpp> 
# include "opencv2/gpu/device/functional. hpp" 
# include "opencv2/gpu/device/warp_shuffle. hpp" 
using namespace std; 

using namespace cv; 

using namespace gpu; 


template < int nthreads > 
. global void compute kernel(int height, int width, const PtrStepb img, PtrStepb dst) 
t 
const int ix - blockIdx.x * blockDim.x * threadIdx.x; //x 
const int iy = blockIdx.y * blockDim.y + threadIdx.y; //y 


const uchar* src y = (const uchar * )(img); 
uchar* dst y = (uchar * )(dst); 
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int ix 1 = max(0,ix- 1); 
int ixl = min(width- 1, ix+ 1); 
int iy 1 = max(0,iy- 1); 
int iyl = min(height- 1, iy+ 1); 


if (ix < width && iy < height) 
{ 
if( src_y[iy* img. step + ix] > src y[iy 1 * img. step + ix 1] ) dst_y[iy * img. 
step + ix] = src_y[iy_1 * img. step + ix_1]; 
if( src y[iy * img. step + ix] > src_y[iy_1 * img. step + ix] ) dst_y[iy * img. 
step + ix] = src_y[ iy_1 * img. step + ix]; 
if( src y[iy * img. step + ix] > src_y[iy_1 * img. step + ix1] ) dst_y[iy * img. 
step + ix] = src_y[ iy_1 * img. step + ix1]; 
if( src y[iy * img. step + ix] > src_y[ iy * img. step + ix 1] ) dst_y[ iy * img. 
step + ix] = src_y[ iy * img. step + ix 1]; 
if( src y[iy* img. step + ix] > src y[iy * img. step + ix] ) dst y[iy * img. step + 
ix] = src y[iy* img. step + ix]; 
if( src y[iy* img. step + ix] > src y[iyl* img. step + ix 1] ) dst y[iy* img. 
step + ix] = src_y[ iy1 * img. step + ix 1]; 
if( src y[iy* img. step + ix] > src y[iy * img. step + ix] ) dst_y[ iy * img. step + 
ix] = src y[iy * img. step + ix]; 
if( src y[iy * img. step + ix] > src y[iy * img. step + ix1] ) dst y[iy * img. 
step + ix] = src y[iy* img. step + ix1]; 


int main() 


Mat src= imread("lena256. jpg",1); 
Mat a= imread("lena256.jpg",0); 


int b= a.channels(); 
printf(" 读 人 图 像 的 通道 数 = s d\n", b); 


GpuMat d a(a); 

GpuMat d dst(a); 

int width = a.size().width; // 横 向 
int height = a.size().height; // 纵 向 


const int nthreads = 256; 

dim3 bdim(nthreads, 1); // 分 配 线程 

dim3 gdim(divUp(width, bdim.x), divUp(height, bdim.y)); 
compute _ kernel <nthreads »««« gdim, bdim>>>(height, width, d_a, d_dst); 


Mat dst(d_dst); 
imshow(" 原 图 像 ", src) ; 
imshow(" 单 通道 图 像 ", a); 
imshow(" 图 像 腐 蚀 后 的 效果 图 ", dst); 
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图 5-44 单 通道 图 像 腐 蚀 


2) 灰 度 图 像 膨胀 
单 通道 的 图 像 膨胀 与 单 通道 的 图 像 腐蚀 相反 ,就 是 将 一 个 确定 范围 内 的 最 大 值 赋 给 中 
心 位 置 的 像素 点 ,如 图 5-45 所 示 。 


209 125 191 9 168 52 65 
33 234 162 44 203 128 235 
121 150 55 |66 32 231 
32 76 244 [121 141 122 136 
14 158 191 246 196 98 204 


235 8 1 71 126 235 66 


图 5-45 单 通道 图 像 膨胀 
程序 实现 : 


# include "cuda runtime. h" 

f include "device launch parameters. h" 
# include < cuda. h> 

# include < cuda device runtime api.h» 
# include < opencv2 V gpu Vgpu. hpp > 

# include < opencv2\gpu\gpumat. hpp > 

# include < opencv2Vopencv. hpp > 

# include < opencv. hpp > 

# include < stdio. h> 

* include < iostream> 

# include < nemory ^ 

# include < cv. h> 

# include < highgui.h» 

# include < opencv2/core/core. hpp > 
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# include < opencv2/imgproc/imgproc. hpp > 
# include "opencv2/gpu/device/common. hpp' 
# include "opencv2/gpu/device/reduce. hpp' 
# include < opencv2/highgui/highgui. hpp > 
# include "opencv2/gpu/device/functional. hpp" 

# include "opencv2/gpu/device/warp_shuffle. hpp" 
using namespace std; 


" 


using namespace cv; 


using namespace gpu; 


template < int nthreads > 
..global _ void compute kernel(int height, int width, const PtrStepb img, PtrStepb dst) 
t 
const int ix = blockIdx.x * blockDim.x + threadIdx.x; //x 
blockIdx.y * blockDim.y * threadIdx.y; //y 


const int iy 


const uchar * src y = (const uchar * )(img); 
uchar* dst y = (uchar * )(dst); 


int ix 1 = max(0,ix- 1); 

int ixl = min(width- 1, ix+ 1); 
int iy 1 = max(0,iy- 1); 

int iyl = nmin(height- l,iy 1); 


if (ix < width && iy < height) 
{ 
if( src_y[iy* img. step + ix] <= src y[iy 1 * img. step + ix 1] ) dst y[iy* 
img. step + ix] = src y[iy 1 * img. step + ix 1]; 
if( src y[iy* img. step + ix] <= src y[iy 1 * img. step + ix] ) dst y[iy * img. 
step + ix] = src_y[ iy_1 * img. step + ix]; 
if( src_y[iy * img. step + ix] <= src_y[iy_1 * img. step + ix1] ) dst y[iy* 
img. step + ix] = src_y[ iy_1 * img. step + ix1]; 
if( src y[iy * img. step + ix] <= src y[iy* img.step+ ix 1] ) dst_y[iy * img. 
step + ix] = src_y[ iy * img. step + ix 1]; 
if( src y[iy* img. step + ix] <= src y[iy * img. step + ix] ) dst_y[ iy * img. 
step + ix] = src_y[ iy * img. step + ix]; 
if( src_y[iy * img. step + ix] <= src y[iyl* img. step + ix 1] ) dst y[iy* 
img. step + ix] = src y[iyl* img. step + ix 1]; 
if( src_y[ iy * img. step + ix] <= src_y[iy * img. step + ix] ) dst_y[ iy * img. 
step + ix] = src y[iy* img. step + ix]; 
if( src_y[iy* img. step + ix] <= src_y[iyx img. step + ix1] ) dst_y[ iy * img. 
step + ix] = src_y[ iy * img. step + ix1]; 


int main() 


Mat src= imread("lena256. jpg",1); 


站 ”第 5 章 ” 基 于 GPU 的 并 行 图 像 处 理 
i 


Mat a= imread("lena256. jpg",0); 


int b=a.channels(); 
printf(" 读 人 图 像 通道 数 = % d\n", b); 


GpuMat d a(a); 

GpuMat d dst(a); 

int width = a.size().width; // 横 向 
int height = a.size().height; // 纵 向 


const int nthreads = 256; 

dim3 bdin(nthreads, 1); // 分 配 线程 

dim3 gdin(divUp(width, bdim.x), divUp(height, bdim.y)); 

compute kernel: nthreads ><<< gdim, bdim>>>(height, width,d a,d dst); 


Mat dst(d dst); 
imshow(" 原 图 像 ", src); 
imshow(" 单 通道 图 像 ",a) ; 
imshow(" 图 像 腐蚀 后 的 效果 图 ", dst); 
waitKey(); 

return 0; 


) 
运行 结果 如 图 5-46 所 示 。 


图 5-46 单 通 道 图 像 膨胀 


5.4.4 非 局 部 均值 算法 


非 局 部 均值 (Non-Local Means. NLM) 算 法 是 一 种 去 噪 效 果 很 好 的 滤波 算法 。 
1. 原理 
D 邻 域 平均 去 品 
邻 域 平均 去 噪 是 非 局 部 均值 滤波 的 理论 基础 。 假 设 图 像 受到 加 性 高 斯 白 噪 声 的 干扰 ， 
那么 可 以 得 到 被 干扰 后 的 图 像 : 
g(x)— f(x)t olz) (6-5) 
其 中 f(z) 表 示 原 本 的 纯净 图 像 ,g (x) 表 示 受 到 干扰 之 后 的 输出 图 像 ,p (xz) 表示 均值 为 零 
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的 高 白 斯 噪声 。 

邻 域 平均 去 噪 是 利用 邻 域 像素 的 均值 估计 中 心 像素 点 ,属于 较 早 的 一 种 去 噪 策略 。 该 
方法 是 基于 这 样 一 种 前 提 假 设 ,噪声 在 图 像 局 部 区 域内 服从 相同 的 分 布 ,并 且 像素 点 的 灰 度 
值 在 非常 小 的 范围 内 是 缓慢 变化 的 , 即 一 定 程度 上 是 相似 的 。 因 此 ,可 以 用 邻 域 像素 估计 中 
心 像素 的 值 。 对 于 一 个 给 定 的 像素 点 i EN (i) 为 所 选取 的 用 于 平均 计算 的 邻 域 , 则 像素 / 
(i) 的 估计 值 f (站 为 : 

1 Mii ü 1 — 1 : 
ieu => (5-6) 
fO- x3 UOH) R 2) Gy 22 90) 
RP N 表示 N GO RR ACE E eG) ] 708 £6) — f G)WE f G) - fU). 用 
VA 表示 像素 点 i BR IUE o! 为 噪声 信号 p(j ) 的 方差 , 则 有 : 


1 sth 1 ;1= lu = lu 
VA = Verl 22 e0)] Nz 22 VarleG)17 gg Ne = ye 


(5-7) 


由 上 式 可 知 ,N 值 越 大 ,滤波 后 的 像素 ; 处 的 噪声 方差 就 会 越 小 , 仅 为 原来 的 十 。 


在 实际 去 噪 过 程 中 ,由 于 噪声 的 污染 ,在 图 像 中 确定 /(z) 的 真实 值 是 比较 困难 的 ,并 且 
噪声 较 大 时 去 噪 能 力 有 限 。 虽 然 完全 相同 的 像素 较 少 ,但 是 在 一 定 邻 域内 ,相似 的 像素 却 有 
很 多 。 为 了 能 够 充分 利用 这 一 特性 ,学 者 们 提出 了 加 权 平均 的 思想 。 

加 权 平 均 是 利用 图 像 中 的 自 相似 信息 ,根据 像素 之 间 的 相似 程度 设置 权 值 的 大 小 。 基 
于 加 权 平 均 的 邻 域 平 均 去 噪 算法 取得 了 非常 好 的 去 噪 效果 ,此 算法 的 关键 在 于 如 何 度量 像 
素 之 间 的 相似 性 或 者 构造 权 值 函数 ,这 就 是 非 局 部 均值 算法 的 前 身 。 

2) 非 局 部 均值 算法 

局 部 去 噪 和 变换 域 去 噪 算法 在 去 除 噪声 的 同时 ,能 够 E 
ORIS RU 3 EL STA R9 ri, t e Am Hg mf E 
纹理 的 保留 方面 明显 不 足 。 图 像 中 的 任何 一 个 像素 都 不 是 
孤立 的 ,而 是 与 其 周围 的 像素 点 结合 在 一 起 共同 构成 图 形 
的 几何 结构 。 以 某 一 个 像素 点 为 中 心 的 窗口 邻 域 ,可 以 很 
好 地 描述 像素 点 的 结构 特征 。 针 对 任何 一 个 像素 点 的 图 像 
块 的 所 有 集合 可 以 看 作 是 图 像 的 一 种 过 完备 表示 。 它 采用 
结构 相似 性 定义 像素 间 的 差异 ,并 对 像素 周围 整个 区 域 的 
灰 度 分 布 做 整体 对 比 ,根据 图 像 中 灰 度 分 布 的 相似 性 决定 
权 值 的 大 小 ,如 图 5-47 所 示 , 假 设 pq、qs、gqs 具有 完全 相 图 5-47 相似 图 像 块 示意 图 
同 的 灰 度 值 ,那么 gi ego .qs 三 者 都 会 根据 与 p 点 不 同 的 欧 
氏 距离 而 得 到 相应 的 权 值 ,但 q 和 gs 的 邻 域 灰 度 分 布 与 p 更 接近 ,因此 贡献 更 大 的 权 值 ， 
qa 则 对 p 贡献 较 小 的 权 值 。 

假设 一 幅 含 噪 图 像 >= 二 {x(i) l EI ,其 定义 在 有 界 域 TE N* 。 在 这 幅 图 像 中 ,对 于 某 
个 像素 点 i, 非 局 部 均值 滤波 算法 利用 所 有 像素 的 加 权 平 均 来 得 到 该 点 的 估计 值 
NL (x) (i) Bl: 


NL (z) G)7 Dw(i,j)z G) (5-8) 
JEI 
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其 中 , 权 值 {w(i,j )}; 依赖 于 像素 i 与 像素 j 之 间 的 相似 性 , 且 满足 如 下 条 件 : Oc (i.;)« 
H Dw(i,j)= 1。 
图 像 域 T 上 的 邻 域 系统 N = {Ni}ie1 是 图 像 域 1 的 子 集 ,使 得 对 于 所 有 的 像素 点 i ET 
都 必须 要 满足 以 下 两 个 条 件 : 
(Di€N; 
(2j€N,2i€N; 
其 中 ,N; 是 像素 i 的 窗口 邻 域 ,Ni 是 像素 ) 的 窗口 邻 域 。 
为 了 能 够 更 好 地 适应 图 像 不 同 区 域 的 特征 ,可 以 将 相似 性 窗口 取 不 同 的 形状 和 大 小 。 为 
了 方便 起 见 ,此 处 使 用 固定 大 小 的 方形 窗口 。 相 似 性 窗口 N, 内 的 灰 度 值 向 量 可 以 表示 如 下 : 
z(Ni)= (xG) Jj € Ni) (5-9) 
灰 度 值 向 量 z ( N, ) A = ( N, ) 之 间 的 相似 性 可 以 用 来 决定 像素 点 ; 和 像素 点 7 之 间 的 相似 
性 , 即 在 加 权 平 均 时 ,那些 与 >(N;) 具 有 相似 灰 度 值 向 量 的 像素 点 将 被 分 配 较 大 的 权 值 , 反 
之 则 被 分 配 到 较 小 的 权 值 。 为 了 能 够 定量 地 计算 z (N) FE (Nj) 之 间 的 相似 性 ,可 以 采用 
高 斯 加 权 的 欧 氏 距离 | x(N; ) 一 x(N; ) |l 5.。。 含 噪声 的 图 像 与 滤波 后 的 图 像 在 对 应 位 置 上 
的 相似 性 窗口 内 灰 度 值 向 量 之 间 的 欧 氏 距离 满足 如 下 的 关系 : 
E | £(N;)7 z(N;) ll = ||y(N;,)— » (N;) | E, +20 (5-10) 
其 中 ,x 与 y 分 别 表示 带 有 噪声 图 像 与 滤波 后 的 图 像 ,o* 是 噪声 的 方差 。 
基于 以 上 的 式 子 可 以 得 到 像素 点 i 和 像素 点 7 之 间 的 权 值 ze (isj): 
wi zyl Mech eO) l t) 
其 中 Z(i) xa Í (EAEAN li) gs 化 常数 ;上 z(N;) 一 2(N;) 13 是 


指 i 块 和 j 块 的 加 权 欧 式 距 离 的 平方 ,这 里 用 d (i,j ) 来 表示 ,a (a 记 0) 是 指 高 斯 核 的 标准 
差 , 由 选 定 像素 邻 域 的 窗口 大 小 决定 。 参 数 h 控制 指数 函数 的 衰减 速度 ,同时 影响 着 权 值 的 
衰减 速度 ,hh 二 cXo。c 是 用 于 调整 的 系数 ,Buades 将 其 范围 规定 在 1 一 10 之 间 。 
最 终 可 以 将 非 局 部 均值 滤波 的 算法 整理 为 如 下 三 个 式 子 : 
d(i.j)— lz(N;)—z(N;) lli. (5-12) 


wisi) ex(- 462) (5-13) 


(5-11) 


Dw lis))z 0) 
güjcder- (5-14) 
p Dw tij) 
je 
[8 5-48 显示 了 非 局 部 均值 滤波 算法 的 执行 过 程 。 在 算法 执行 的 过 程 中 ,需要 设置 两 个 窗口 
的 大 小 : 一 个 是 像素 邻 域 窗口 尺寸 KX K; 另 一 个 是 像素 邻 域 窗口 搜索 范围 的 窗口 尺寸 
LXL, 即 在 LXL 大 小 的 窗口 内 选择 像素 的 邻 域 大 小 为 K XK 执行 非 局 部 均值 滤波 算法 ， 
KXK 的 窗口 在 L XL 的 区 域内 滑动 ,根据 区 域 的 相似 性 确定 区 域 中 心 像素 灰 度 所 贡献 的 
权 值 ,而 在 这 里 的 图 像 处 理 实现 中 ,窗口 尺寸 为 天 一 7, 滑 动 范围 为 工 一 17。 
在 相对 稳定 的 条 件 下 , 即 图 像 有 足够 大 的 尺寸 ,对 于 图 像 内 部 的 各 种 细节 都 能 找到 足够 
多 的 相似 区 域 。 
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2. 程序 实现 

这 套 程序 结合 了 CUDA 6.5 给 出 的 示例 和 一 些 OpenGL 函数 ,加 上 OpenCV 共同 实 

程序 由 五 个 部 分 组 成 ,可 以 处 理 三 通道 的 彩色 图 像 , 如 图 5-49 所 示 。 

* bmploader. cpp 的 主体 功能 是 确认 导入 的 图 片 是 否 为 . bmp 格式 的 图 像 。 

。 imageDenoising. cu 包含 了 一 些 简 单 的 预 处 理 部 分 和 将 数据 传 到 . cuh 文件 中 做 
处 理 。 

。 imageDenoising. h 中 包含 了 函数 中 的 起 始 变 量 和 一 些 头 文件 。 

* imageDenoising nlm2 kernel. cuh 中 主要 放置 了 GPU 实现 NLM 算法 的 部 分 。 

。 imageDenoisingGL. cpp 为 主 函 数 。 


[d 82952 "imageDenoising vs2010" (1 个 项 目 ) 
4 [Z imageDenoising 
» 郊外 部 依赖 项 
区 域 2 加 bmploadercpp 
回 imageDenoising.cu 
Lh) imageDenoisingh 
[ imageDenoising_nlm2_kerneLcuh 
人 imageDenoisingGL.cpp 


图 5-48 非 局 部 均值 滤波 算法 执行 示意 图 图 5-49 NLM 工程 文件 


程序 如 下 : 
(1) bmploader. cpp 


# include < stdio. h> 
# include < stdlib. h> 


# if defined(WIN32) || defined( WIN32) || defined(WIN64) || defined( WING4) 


# pragma warning( disable : 4996 ) //disable deprecated warning 
# endif 


# pragma pack(1) 


typedef struct 

I 
short type; 
int size; 
short reserved1; 
short reserved2; 
int offset; 

) BMPHeader; 


typedef struct 
í 


int size; 
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int width; 
int height; 
short planes; 
Short bitsPerPixel; 
unsigned compression; 
unsigned imageSize; 
int xPelsPerMeter; 
int yPelsPerMeter; 
int clrUsed; 
int clrImportant; 

) BMPInfoHeader; 


//1solated definition 
typedef struct 
t 


unsigned char x, y, z, w; 
) uchar4; 


确定 读 人 的 是 BMP 格式 的 图 像 */ 
void LoadBMPFile(uchar4 * * dst, int * width, int * height, const char * name) 


BMPHeader hdr; 
BMPInfoHeader infoHdr; 
int x, y; 


FILE * fd; 

printf("Loading 5 s...\n", name); 

if (sizeof(uchar4) !- 4) 

{ 
printf(" * * * Bad uchar4 size* * * Wn"); 
exit(EXIT SUCCESS) ; 


if (!(fd = fopen(name, "rb"))) 

{ 
printf(" * * * BMP load error: file access deniedx * * Wn"); 
exit(EXIT SUCCESS); 


fread(&hdr, sizeof(hdr), 1, fd); 


if (hdr.type != 0x4D42) 

t 
printf(" * * x BMP load error: bad file format * * * Wn"); 
exit(EXIT SUCCESS); 
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fread(&infoHdr, sizeof(infoHdr), 1, fd); 


if (infoHdr.bitsPerPixel !- 24) 

{ 
printf(" * * * BMP load error: invalid color depth * * x Wn"); 
exit(EXIT SUCCESS); 


if (infoldr.compression) 

{ 
printf(" * * # BMP load error: compressed image * * *\n"); 
exit(EXIT SUCCESS); 


} 
* width = infoHdr. width; // 读 入 宽度 
* height = infolidr. height; // 读 入 高 度 


*dst = (uchar4 * )malloc( * width * * height * 4); 


printf("BMP width: & un", infoHdr. width); 
printf("BMP height: $ un", infoldr. height); 


fseek(fd, hdr.offset — sizeof(hdr) — sizeof(infoHdr), SEEK CUR); 
for (y = 0; y< infolidr. height; y**) 


{ 
for (x = 0; x< infoldr. width; x++) 


{ 
(*dst)[(y * infoHdr.width + x)].z = fgetc(fd); 
(*dst)[(y * infoHdr.width + x)].y = fgetc(fd); 
(*dst)[(y * infoHdr.width + x)].x = fgetc(fd); 


for (x = 0; x«(4 - (3 * infoldr.width) % 4) * 4; x++) 
fgetc(fd); 
) 
if (ferror(fd)) 
{ 
printf(" * * * Unknown BMP load error. * * *\n"); 
free( * dst); 
exit(EXIT SUCCESS); 
) 
else 
printf("BMP file loaded successfully! n"); 
fclose(fd); 


} 


(2) imageDenoising. cu 


# include < stdio. h> 
# include < stdlib. h> 
# include < string. h> 
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* include "imageDenoising.h" 
# include "imageDenoising nlm2 kernel.cuh" 


HUM P P P P P P P P P P P P P P n Pdl 
// 调 用 的 简单 函数 

HUM HL M n ll HM HH PH P P ng M 
float Max(float x, float y) 

{ 


return (x> y) ? x : y; 


} 


float Min(float x, float y) 
{ 


return (x < y) ? x : y; 


) 


int iDivUp(int a, int b) 
( 

return ((a * b) != 0) ? (a/b + 1) : (a/b); 
) 


. device - 


t 


_ float lerpf(float a, float b, float c) 
returna + (b - a) * c; 


) 


. device float vecLen(float4 a, float4 b) 
{ 
return ( 
(b.x — a.x) * (b.x — a.x) + 
(b.y - a.y) * (b.y - a.y) + 
(bz 一 az) w (bz - az) 
E 
) 


. device X TColor make color(float r, float g, float b, float a) 
I 
return 
((int)(a * 255.0f) << 24) | 
((int)(b * 255.0f) << 16) | 
((int)(g * 255.0f) << 8) | 
((int)(r * 255.0f) «« 0); 


HMM M P P P P P P P n nd d M B MM 
//Global data handlers and parameters 

HMM MM HH P P P P PPP P PH P ML P P P P P FB n  g g 
// Texture reference and channel descriptor for image texture 
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texture < uchar4, 2, cudaReadModeNormalizedFloat > texlImage; 
cudaChannelFormatDesc uchar4tex = cudaCreateChannelDesc < uchar4 >(); 


//CUDA array descriptor 
cudaArray *a Src; 


HUM P P P P n P HH P P P P P P P P gl 
/ [Filtering kernels 


Hii HH HH HH HH M P P M HH I P 


extern "C" 
cudaError t CUDA Bind2TextureArray() 
{ 
return cudaBindTextureToArray(texImage, a_Src); 


} 


extern "C" 
cudaError t CUDA UnbindTexture() 
t 
return cudaUnbindTexture(texImage); 
) 


extern "C" 
cudaError t CUDA MallocArray(uchar4 * * h Src, int imageW, int imageH) 
{ 


cudaError_t error; 


error = cudaMallocArray(&a Src, &uchar4tex, imageW, imageH); 

error = cudaMemcpyToArray(a Src, 0, 0, 
*h Src, imageW * imageH * sizeof(uchar4), 
cudaMemcpyHostToDevice 
E 


return error; 


extern "C" 
cudaError t CUDA FreeArray() 
{ 
return cudaFreeArray(a Src); 


) 


(3) imageDenoising. h 


# ifndef IMAGE DENOISING H 
f define IMAGE DENOISING H 
typedef unsigned int TColor; 
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A r A 初始 化 数据 ------------------------ */ 
# define KNN_WINDOW_RADIUS 3 

# define NLM WINDOW RADIUS 3 

f define NLM BLOCK RADIUS 3 

f define KNN WINDOW AREA ( (2 * KNN WINDOW RADIUS + 1) * (2 * KNN WINDOW RADIUS + 1) ) 
f define NLM WINDOW AREA ( (2 * NLM WINDOW RADIUS + 1) * (2 * NLM WINDOW RADIUS + 1) ) 
# define INV KNN WINDOW AREA ( 1.0f / (float)KNN WINDOW AREA ) 

# define INV NLM WINDOW AREA ( 1.0f / (float)NLM WINDOW AREA ) 

# define KNN WEIGHT THRESHOLD 0.02f 

# define KNN LERP THRESHOLD 0. 79f 

# define NLM WEIGHT THRESHOLD 0. 10f 

# define NLM LERP THRESHOLD 0.10f 

# define BLOCKDIM X 8 

# define BLOCKDIM Y 8 

# ifndef MAX 

# define MAX(a,b) ((a«b) ?b:a) 

# endif 

# ifndef MIN 

# define MIN(a,b) ((a« b) ? a : b) 

# endif 


fE se Fifi A --—------------------- */ 

extern void LoadBMPFile(uchar4 * * dst, int * width, int * height, const char * name); 
extern "C" cudaError t CUDA Bind2TextureArray(); 

cudaError t CUDA UnbindTexture(); 

extern cudaError t CUDA MallocArray(uchar4 * * h Src, int imageW, int imageH); 

extern "C" cudaError t CUDA FreeArray(); 

extern "C" void cuda NLM2(TColor * d dst, int imageW, int imageH, float Noise, float LerpC); 
extern "C" void cuda NLM2diag(TColor * d dst, int imageW, int imageH, float Noise, float 
LerpC); 


extern "C" 


f endif 
(4) imageDenoising nlm2 kernel. cuh 


..global void NLM2( 
TColor * dst, 
int imageW, 
int imageH, 
float Noise, 
float lerpC 


Shared float fWeights[BLOCKDIM X * BLOCKDIM Y]; 
const int ix = blockDim.x * blockIdx.x + threadIdx.x; 
const int iy = blockDim.y * blockIdx.y + threadIdx. y; 


const float x (float)ix * 0.5f; 
const float y (float)iy * 0.5f; 
const float cx - blockDim.x * blockIdx.x * NLM WINDOW RADIUS * 0.5f; 
const float cy = blockDim.x * blockIdx.y + NLM WINDOW RADIUS + 0.5f; 


" 
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if (ix < imageW && iy < imageH) 
{ 


//for 循环 得 到 权重 
float weight = 0; 
for (float n = - NLM BLOCK RADIUS; n <= NLM BLOCK RADIUS; n++) 
for (float m = - NLM BLOCK RADIUS; m <= NLM BLOCK RADIUS; m++) 


weight += vecLen( 
tex2D(texlImage, cx + m, cy + n), 
tex2D(texImage, x * m, y * n) 
); 
float dist = 
(threadIdx.x — NLM WINDOW RADIUS) * (threadIdx.x — NLM WINDOW RADIUS) + 
(threadIdx.y — NLM WINDOW RADIUS) * (threadIdx.y — NLM WINDOW RADIUS); 


weight = ^ expf(- (weight * Noise + dist * INV NLM WINDOW AREA)); 


fWeights[threadIdx. y * BLOCKDIM X + threadIdx.x] = weight; 
. Syncthreads(); 
// NUM 的 标准 计数 器 


float fCount = 0; 
float sumWeights - 0; 


// 结 果 累 加 

float3 clr = {0, 0, 0}; 

int idx = 0; 

for (float i = - NLM WINDOW RADIUS; i <= NLM WINDOW RADIUS + 1; i++) 
for (float j = — NLM WINDOW RADIUS; j <= NLM WINDOW RADIUS + 1; j++) 


{ 
float weightIJ = fWeights[idx++]; 
float4 clrIJ = tex2D(texImage, x + j, y + i); 
clr.x += clrIJ.x * weightIJ; 
clr.y += clrlJ.y * weightIJ; 
clr.z += clrlJ.z * weightIJ; 


// 权 重 倒 加 w(i, 3) 

sumWeights += weightIJ; 
fCount += (weightlJ > NLM WEIGHT THRESHOLD) ? INV NLM WINDOW AREA : 0; 
) 


sumWeights = 1.0f / sumWeights; 

clr.x * = sumWeights; // 处 理 后 的 图 像 
clr.y * = sumWeights; 

clr.z * = sumWeights; 
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float lerpQ = (fCount > NLM LERP THRESHOLD) ? lerpC : 1.0f — lerpC; 
float4 clr00 = tex2D(texImage, x, y); 
clr.x = lerpf(clr.x, clr00.x, lerpQ); 
lerpf(clr.y, clr00.y, lerpQ); 
clr.z = lerpf(clr.z, clr00.z, lerpQ); 
dst[imageW * iy * ix] - make color(clr.x, clr.y, clr.z, 0); 


clr.y 


extern "C" 

void cuda NLM2( 
TColor *d dst, 
int imageW, 
int imageH, 
float Noise, 
float LerpC 


dim3 threads(BLOCKDIM X, BLOCKDIM Y); 
dim3 grid(iDivUp(imageW, BLOCKDIM X), iDivUp(imageH, BLOCKDIM Y)); 


NLM2 <<< grid, threads »»»(d dst, imageW, imageH, Noise, LerpC); 
) 


(5) imageDenoisingGL. cpp 


# include < opencv2/core/core. hpp > //OpenCV 库 
# include < opencv2/ imgproc/imgproc. hpp > 
# include < opencv2/highgui/highgui.hpp > 


# include < GL/glew. h> / /OpenGL 库 
*ifdefined( APPLE ) || defined(MACOSX) 

# include < GLUT/glut. h> 

f else 

# include < GL/freeglut.h» 

# endif 


# include < cuda_runtime. h> //CUDA 头 文件 
# include «cuda gl interop.h» 


# include < stdio. h> //c++ 输 入 输出 头 文件 
# include < stdlib. h> 

* include < string. h> 

# include "imageDenoising. h" 

# include < helper functions. h> 

# include < helper cuda.h» 


using namespace std; 


const char * sSDKsample = "CUDA ImageDenoising"; 
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const char * filterMode[] = 
t 


"Passthrough", 
"KNN method", 
"NLM method", 
"Quick NLM(NLM2) method", 
NULL 
E 
fi 确认 图 像 是 否 生效 --------------- */ 


const char * sOriginal[] = 
{ 
"image passthru. ppm", 
"image knn.ppm", 
"image nlm.ppm", 
"image nlm2.ppn", 
NULL 
h 


const char * sReference[] - 
1 
"ref passthru. ppn", 
"ref knn.ppn", 
"ref nlm.ppnm", 
"ref nlm2.ppm", 
NULL 
}; 


GLuint gl PBO, gl Tex; 

struct cudaGraphicsResource * cuda pbo resource; 

uchar4 * h Src; 

int imageW, imageH; // 图 像 宽度 .高度 
GLuint shader; 


// 初 始 化 

int g Kernel = 0; 

bool g FPS - false; 

bool g Diag - false; 
StopWatchInterface * timer - NULL; 


const float noiseStep - 0.025f; 
const float lerpStep = 0.025f; 
static float knnNoise - 0.32f; 
static float nlmNoise - 1.45f; 
static float lerpC - 0.2f; 


const int frameN - 24; 


int frameCounter - 0; 
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f define BUFFER DATA(i) ((char *)0 + i) 


const int frameCheckNumber - 4; 
int fpsCount - 0; 

int fpsLimit - 1; 

unsigned int frameCount - 0; 
unsigned int g TotalErrors - 0; 


int * pÀrgc = NULL; 
char * * pArgv = NULL; 


$ define MAX EPSILON ERROR 5 
# define REFRESH DELAY 10 // 时 间 单 位 10ms 


void computeFPS() 
{ 
frameCount++ ; 
fpsCount++ ; 


if (fpsCount == fpsLimit) 

{ 
char fps[256]; 
float ifps = 1.f / (sdkGetAverageTimerValue(&timer) / 1000. f); 
sprintf (fps, "<% s»: %3.1f fps", filterMode[g Kernel], ifps); 


glutSetWindowTitle(fps); 
fpsCount - 0; 
SsdkResetTimer(&timer); 
) 
) 
— 选择 模块 (这 里 仅 有 NEM 一 种 ) ------------------ */ 


void runImageFilters(TColor * d dst) 
i 
if(g Kernel- 1) 
f 
cuda NLM2(d dst, imageW, imageH, 1.0f / (nlmNoise * nlmNoise), lerpC); 


/* --------------- 显示 图 片 的 模块 测试 图 片 是 否 出 错 也 在 这 里 ------------------ */ 
void displayFunc(void) 
{ 

sdkStartTimer(&timer); //SDK 初始 化 

TColor *d dst = NULL; 

size t num bytes; 

if (frameCounter++ -- 0) 

{ 


sdkResetTimer(&timer); 
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// 测 试 GPU 内 存 
checkCudaErrors(cudaGraphicsMapResources(1, &cuda pbo resource, 0)); 
getLastCudaError("cudaGraphicsMapResources failed"); 
checkCudaErrors (cudaGraphicsResourceGetMappedPointer ( (void * * )&d dst, &num bytes, 
cuda pbo resource)); 
getLastCudaError("cudaGraphicsResourceGetMappedPointer failed"); 
checkCudaErrors(CUDA Bind2TextureArray()); 


runImageFilters(d dst); //runInageFilters 函数 中 做 选择 效果 


checkCudaErrors(CUDA UnbindTexture()); 
checkCudaErrors(cudaGraphicsUnmapResources(1, &cuda pbo resource, 0)); 


// 正 常 的 显示 初始 化 和 显示 效果 
{ 
glClear(GL COLOR BUFFER BIT); 


glTexSubImage2D(GL TEXTURE 2D, 0, 0, 0, imageW, imageH, GL RGBA, GL UNSIGNED BYTE, 
BUFFER DATA(0)); 
glBegin(GL TRIANGLES); 
glTexCoord2f(0, 0); 
glVertex2f( - 1, - 1); 
glTexCoord2f(2, 0); 
glVertex2f( +3, - 1); 
glTexCoord2f(0, 2); 
glVertex2f( -1, +3); 
glEnd() ; 
glFinish(); 


if (frameCounter -- frameN) 
{ 


frameCounter = 0; 


if (g_FPS) // 显 示 出 FPS 

{ 
printf("FPS: €3.1fWn", frameN / (sdkGetTimerValue(&timer) * 0.001)); 
g FPS - false; 


glutSwapBuffers(); 


sdkStopTimer(&timer); 
computeFPS(); 


void timerEvent(int value) 
í 
glutPostRedisplay(); 
glutTimerFunc(REFRESH DELAY, timerEvent, 0); 
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void shutDown(unsigned char k, int / * x * /, int / * y * /) 
i 


switch (k) 
{ 
case 'q': 
case 'Q': 
printf("Shutting down...An"); 
sdkStopTimer(&timer); 
sdkDeleteTimer(&timer); 


checkCudaErrors(CUDA FreeArray()); 
free(h Src); 


exit(EXIT SUCCESS); // 成 功 即 退出 
break; 
) 
) 
fw e————————— 图 像 GL 初始 化 ---------- x/ 
int initGL(int * argc, char * * argv) 
{ 
glutlnit(argc, argv); // 将 数据 送 入 GL 允许 其 使 用 
glutInitDisplayMode(GLUT_RGBR | GLUT DOUBLE); //GL 显示 


glutInitWindowSize(imageW, imageH); 
glutInitWindowPosition(512 — imageW / 2, 384 — imageH / 2); 


// 窗 口 位 置 
glutCreateWindow(argv[0]); 
glewInit(); //GL 初始 化 完成 
return 0; 


static const char * shader code = 
"1 1 ARBfp1. 0 Vn" 
"TEX result. color, fragment. texcoord, texture[0], 2D; Vn" 
"END"; 


GLuint compileASMShader(GLenum program type, const char * code) { 

GLuint program id; 

glGenProgramsARB(1, &program id); 

glBindProgramARB(program type, program id); 

glProgramStringARB(program type, GL PROGRAM FORMAT ASCII ARB, (GLsizei) strlen(code), 
(GLubyte * ) code); 


GLint error pos; 
glGetIntegerv(GL PROGRAM ERROR POSITION ARB, &error pos); 


if (error pos != - 1) 
{ 


const GLubyte * error string; 
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error string = glGetString(GL PROGRAM ERROR STRING ARB); 
fprintf(stderr, "Program error at position: %d\n% s\n", (int)error pos, error string); 
return 0; 


return program id; 


void initOpenGLBuffers() 
{ 
glEnable(GL TEXTURE 2D); 
glGenTextures(1, &gl Tex); 
glBindTexture(GL TEXTURE 2D, gl Tex); 
glTexParameteri(GL TEXTURE 2D, GL TEXTURE WRAP S, GL CLAMP); 
glTexParameteri(GL TEXTURE 2D, GL TEXTURE WRAP T, GL CLAMP); 
glTexParameteri(GL TEXTURE 2D, GL TEXTURE MAG FILTER, GL LINEAR); 
glTexParameteri(GL TEXTURE 2D, GL TEXTURE MIN FILTER, GL LINEAR); 
glTexImage2D(GL TEXTURE 2D, 0, GL RGBA8, imageW, imageH, 0, GL RGBA, GL UNSIGNED BYTE, h Src); 
printf("Texture created. Wn"); 
printf("Creating PBO...An"); 
glGenBuffers(1, &gl PBO); 
glBindBuffer(GL PIXEL UNPACK BUFFER ARB, gl PBO); 
glBufferData(GL PIXEL UNPACK BUFFER ARB, imageW * imageH * 4, h Src, GL STREAM COPY); 
checkCudaErrors ( cudaGraphicsGLRegisterBuffer ( &cuda _ pbo _ resource, gl _ PBO, 
cudaGraphicsMapFlagsWriteDiscard)); 
GLenum gl error - glGetError(); 


if (gl error !- GL NO ERROR) 
{ 
# if defined(WIN32) || defined( WIN32) || defined(WIN64) | | defined( WIN64) 
// 判 断 系 统 的 位 数 
char tmpStr[512]; 
sprintf s(tmpStr, 255, "\n% s(% i) : GL Error : % s\n\n", — FILE. , — LINE , 
gluErrorString(gl error)); 
OutputDebugString(tmpStr); 
# endif 
fprintf(stderr, "GL Error in file '% s'in line %d :\n", — FILE , | 
fprintf(stderr, " % s\n", gluErrorString(gl error)); 
exit(EXIT FAILURE); 


LINE ); 


) 
printf("PBO created. Wn") ; 
shader = compileASMShader(GL FRAGMENT PROGRAM ARB, shader code); 


void cleanup() 

1 
sdkDeleteTimer(&timer); 
glDeleteProgramsARB(1, &shader); 
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void runñutoTest( int argc, char * * argv, const char * filename, int kernel param) 


1 
printf("[$ s] — (automated testing w/ readback) Wn", sSDKsample); 


int devID = findCudaDevice(argc, (const char * * )argv); 


printf("Allocating host and CUDA memory and loading image file...Vn"); 
const char * image path - sdkFindFilePath("barbara. png", argv[0]); 


if (image path -- NULL) 
{ 
printf ( " imageDenoisingGL was unable to find and load image file < portrait noise. bmp >. V 
nExiting...An"); 
exit(EXIT FAILURE); 


LoadBMPFile(&h Src, &imageW, &imageH, image path); 
printf("Data init done. Wn") ; 


checkCudaErrors(CUDA MallocArray(&h Src, imageW, imageH)); 


TColor *d dst - NULL; 

unsigned char * h dst - NULL; 

checkCudaErrors(cudaMalloc((void * * )&d dst, imageW * imageH * sizeof(TColor))); 
h dst = (unsigned char * )malloc(imageH * imageW * 4) ; 


g Kernel - kernel param; 

printf("[AutoTest]: % s <% s>NVn", sSDKsample, filterMode[g Kernel]); 
checkCudaErrors(CUDA Bind2TextureArray()); 

runlImageFilters(d dst); 

checkCudaErrors(CUDA UnbindTexture()); 
checkCudaErrors(cudaDeviceSynchronize()); 


checkCudaErrors (cudaMemcpy (h _ dst, d dst, imageW * imageH * sizeof (Color), 
cudaMencpyDeviceToHost)); 
sdkSavePPM4ub( filename, h dst, imageW, imageH); 


checkCudaErrors(CUDA FreeArray()); 
free(h Src); 


checkCudaErrors(cudaFree(d dst)); 
free(h dst); 


printf("\n[ %s] 一 > Kernel $d, Saved: % s\n", sSDKsample, kernel param, filename); 
cudaDeviceReset(); 


CUDA 与 OpenCV 并 行 图 像 处 理 实战 


和 本 二 = 三 二 = 三 三 三 二 = 三 二 = 三 三 三 = 三 三 二 二 二 二 


exit(g TotalErrors -- 0 ? EXIT SUCCESS : EXIT FAILURE); 


) 
Vs XR Cu */ 
int main(int argc, char * * argv) 
{ 
char *dump file = NULL; // 图 像 指 针 
pArgc = &argc; // 读 取 数 据 进行 初始 化 
pArgv = argv; 
// 证 语句 用 来 初始 化 检测 GPU 应 用 情况 


if (checkCmdLineFlag(argc, (const char * * )argv, "file")) 
// 使 用 cup 去 指令 去 测试 原始 的 GPU 能 否 使 用 ,不 能 使 用 则 做 初始 化 
{ 
getCmdLineArgumentString(argc, (const char * * )argv, "file", (char * *) &dump file); 
int kernel- 1; 
if (checkCmdLineFlag(argc, (const char * * Jargv, "kernel")) 
t 
kernel = getCmdLineArgumentInt(argc, (const char * * )argv, "kernel"); 
) 
runhutoTest(argc, argv, dump file, kernel); 


else 
{ 
——— i i i i 读 人 图 像 ------------------------------- */ 
const char * image_path = sdkFindFilePath("lena512_noise. bmp", argv[0]); 
六 x/ 
if (image path -- NULL) 
{ 
exit(EXIT FAILURE); 
) 


LoadBMPFile(&h Src, &imageW, &imageH, image path); // 检 查 图 像 格式 


/*——— 计时 函数 -———— */ 
double timeSpentl = (double)cv::getTickCount(); 
—————————————É */ 

initGL(&argc, argv); // 将 图 像 信息 送 入 initGL 做 图 像 的 初始 化 


cudaGLSetGLDevice(gpuGetMaxGflopsDeviceld()); // 初 始 化 CUDAGL, helper 文件 
checkCudaErrors(CUDA MallocArray(&h Src, imageW, imageH)); 

// 在 inageDenoising.cu 中 写 和 图像 的 数据 宽度 和 高 度 
initOpenGLBuffers(); 


ji $8529 ”基于 GPU 的 并 行 图 像 处 理 
e 


g Kernel = 1; // 直 接 进入 NLM 算 法 
glutDisplayFunc(displayFunc); // 显 示 功 能 界面 
glutKeyboardFunc( shutDown); 
sdkCreateTimer(&timer); // 时 间 函 数 
sdkStartTimer(&timer); 

fever cS im ----------------------- */ 


timeSpent1 = ((double)cv::getTickCount() - timeSpentl)/cv::getTickFrequency(); 
cout << "NLM 算法 实现 耗 时 "<< end1; 
cout << "Time spent in milliseconds: " << timeSpentl * 1000 << endl; 


jm or */ 
glutMainLoop(); 
cudaDeviceReset() ; IRR 
exit(EXIT SUCCESS); // 退 出 

} 

3. 运行 结果 


运行 结果 如 图 5-50 所 示 , 左 侧 图 像 是 原始 图 像 , 中 间 的 图 像 是 加 高 斯 白 噪 声 之 后 的 图 
像 ,而 右 侧 的 图 像 是 经 过 处 理 后 的 图 像 。 


5-50 处理 结果 


5.5 本 章 小 结 


本 章 介 绍 了 如 何 使 用 编译 好 的 并 行 OpenCV 库 进 行 并 行 图 像 处 理 。5. 1 节 介 绍 了 如 何 
安装 编译 软件 CMake 和 并 行 开 发 工具 TBB。5. 2 节 详 细 介 绍 了 如 何 将 TBB, OpenCV, 
CUDA 混合 编译 到 一 起 ,生成 支持 GPU 的 并 行 OpenCV 库 。5. 3 节 介 绍 了 如 何 搭建 新 编 
译 好 的 并 行 OpenCV 库 。5. 4 节 使 用 并 行 OpenCV 库 进行 图 像 处 理 , 实 现 了 反 向 算法 、 图 像 
的 加 法 和 减法 .图 像 的 腐蚀 和 膨胀 以 及 非 局 部 均值 算法 。 
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